01 nov

Google indexa PDF’s escaneados

Sí, Google ya hace bastante ofrece en sus resultados de búsqueda PDF’s. Pero basaba los mismos en metadatos y no en el contenido del documento.

Ahora el buscador ha comenzado a utilizar la tecnología de Reconocimiento óptico de carácteres (OCR) que reconoce las palabras presentes en imágenes y las convierte en texto. Entonces ahora a cualquier PDF podremos verlo tambien como HTML.

Queda ver que puede hacer con PDF’s escaneados de baja calidad o que provienen de textos antiguos o dañados. Por mis tareas universitarias siempre ando descargando archivos PDF y la verdad es que hay muchos que no creo que puedan ser reconocidos de la mejor manera. Si llega a poder reconocer todos se merecen aplausos de por vida. No me extrañaría viniendo de Google…

Fuente e imagen desde BaluART

Tags:

Publicado por Matías

Guardado en: Google

Esta entrada no tiene comentarios

Tu comentario será moderado la primera vez que lo hagas al igual que si incluyes enlaces. A partir de ahi no será necesario si usas los mismos datos y mantienes la cordura. No se publicarán insultos, difamaciones o faltas de respeto hacia los lectores y comentaristas de este blog.