/https://www.webnews.it/app/uploads/2008/11/news_115602b19fd58a2c.jpg)
Sembra non conoscere confini la voglia di Google di catalogare l’universo di documenti presenti nel Web. Dopo aver stretto un nuovo importante
La nuova soluzione approntata da Google consentirà una indicizzazione dei milioni di file PDF presenti in Rete e contenenti le riproduzioni delle pagine in formato immagine e non di testo. Il motore di ricerca provvederà a riconoscere e conventire le parole come un comune software OCR, naturalmente su una scala esponenzialmente più ampia, restituendo un maggior numero di parole chiave utili per effettuare le ricerche anche in quei file fino ad ora quasi totalmente invisibili ai crawler di Google. L’operazione di riconoscimento e indicizzazione dei testi è già in corso da alcune settimane, tanto da aver consentito l’inserimento di una prima serie di documenti PDF contenenti pagine in formato immagine tra i risultati del motore di ricerca di Mountain View.
«Mentre indicizziamo i documenti di testo salvati in formato PDF già da tempo, i documenti ottenuti con uno scanner sono un po’ più difficili da leggere per un computer. Scansionare è l’opposto di stampare. La stampa trasforma le parole digitali in testo su un foglio di carta, mentre la scansione crea un’immagine digitale della carta (e del testo) consentendone la visione sul computer. La versione ottenuta con lo scanner del testo non è uguale alle parole digitali originarie, tuttavia è una rappresentazione di quelle parole stampate»
La nuova soluzione adottata da Mountain View attraverso i software per l’OCR non solo consente di rintracciare un file PDF con testo in formato immagine nel mare magnum della Rete, ma permette anche di visualizzare il documento ricercato in formato testuale attraverso una conversione in HTML come già avviene da alcuni anni per i file PDF. Il livello di riconoscimento delle pagine si rivela particolarmente accurato e preciso [confronto