Google, ReCaptcha contro spam ed errori

Google ha rilevato la proprietà di ReCaptcha, sistema che mette le procedure di login ai servizi online a disposizione dei sistemi di scannerizzazione: l'occhio umano è in grado di aiutare gli OCR ad interpretare quelle parole che il sistema non riconosce
Google, ReCaptcha contro spam ed errori
Google ha rilevato la proprietà di ReCaptcha, sistema che mette le procedure di login ai servizi online a disposizione dei sistemi di scannerizzazione: l'occhio umano è in grado di aiutare gli OCR ad interpretare quelle parole che il sistema non riconosce

L’idea è geniale, e Google l’ha fatta propria. Per una somma non meglio precisata, il gruppo ha infatti acquisito il gruppo ReCaptcha, piccola start-up che da tempo porta avanti una semplice idea in grado di coniugare l’esigenza di bloccare i bot dello spam con la necessità di offrire un aiuto umano al lavoro degli OCR che trasformano i libri stampati in bit. Su Webnews se ne parlò già il 25 maggio del 2007, quando ancora la digitalizzazione dei libri era agli albori: ReCaptcha faceva capolino online attirando molte attenzioni, fino a giungere a due anni di distanza alla cessione dell’idea per farla fiorire sui server di Mountain View.

Il Captcha è un sistema noto, utile a certificare il fatto che l’accesso ad un sito sia stato compiuto da una persona fisica piuttosto che da un bot. Questi ultimi, infatti, tentano di accedere a sistemi quali Gmail per offrire a malintenzionati uno strumento utile all’invio di grosse quantità di spam. I sistemi Captcha, però, sono dovuti cambiare nel tempo poiché le tecniche di violazione si son fatte sempre più raffinate ed il gioco a “guardia e ladri” si sussegue ormai da tempo. Il sistema che meglio sembra funzionare è la proposizione di parole distorte che l’occhio umano è in grado di identificare con facilità, ma che un bot difficilmente riuscirà a riconoscere. ReCaptcha va un passo oltre, proponendo parole non solo distorte, ma parole la cui soluzione può avere anche una successiva utilità.

Ciò che ReCaptcha si propone di fare, infatti, è raccogliere tutti quei lemmi che i software OCR non sono riusciti ad identificare con chiarezza, proponendoli quindi agli utenti e chiedendo loro di identificarli per avere accesso al login del caso. L’aiuto dell’occhio umano è in grado di portare la precisione delle digitalizzazioni al 99.5%, migliorando in modo sostanziale il margine d’errore proprio dei sistemi OCR tradizionali. Con l’acquisto di Google l’orizzonte si fa chiaro: ReCaptcha verrà adottato su alcuni dei servizi del gruppo, portando così sotto gli occhi di milioni di utenti le parole che l’OCR non è riuscito a identificare in fase di scannerizzazione dei libri da portare su Google Books.

Il funzionamento di ReCaptcha

«Questa tecnologia potenzierà i progetti di scannerizzazione su larga scala quali Google Books o Google News Archive Search. Avere la versione testuale dei documenti è importante perché il testo permette la ricerca […]. Perciò applicheremo la tecnologia su Google non solo per aumentare la protezione da frodi e spam, ma anche per migliorare i processi di scannerizzazione di libri e giornali». Google spiega che il team ReCaptcha entrerà ad ogni effetto all’interno del team di Mountain View.

ReCaptcha è stato adottato in precedenza anche dal New York Times, aiutando il gruppo a migliorare l’esportazione in bit di 150 anni di archivio cartaceo. Il sistema dei due piccioni con una fava farà ora capolino su Google (ove peraltro è già presente sotto forma di progetto inserito nell’area Google Code), apportando un’utilità sociale alla semplice e ripetitiva operazione che richiede l’attenzione dell’utente ad ogni registrazione online richiedente una verifica anti-bot.

Ti consigliamo anche

Link copiato negli appunti