Google indexa PDF’s escaneados

Sí, Google ya hace bastante ofrece en sus resultados de búsqueda PDF’s. Pero basaba los mismos en metadatos y no en el contenido del documento.

Ahora el buscador ha comenzado a utilizar la tecnología de Reconocimiento óptico de carácteres (OCR) que reconoce las palabras presentes en imágenes y las convierte en texto. Entonces ahora a cualquier PDF podremos verlo tambien como HTML.

Queda ver que puede hacer con PDF’s escaneados de baja calidad o que provienen de textos antiguos o dañados. Por mis tareas universitarias siempre ando descargando archivos PDF y la verdad es que hay muchos que no creo que puedan ser reconocidos de la mejor manera. Si llega a poder reconocer todos se merecen aplausos de por vida. No me extrañaría viniendo de Google…

Fuente e imagen desde BaluART

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.