Así funciona «Carabela», el buscador de inteligencia artificial que puede leer manuscritos del XV al XVIII

El proyecto científico español rastrea términos en imágenes y detecta las palabras presentes en cada píxel

Jesús García Calero

Jesús García CaleroSEGUIRActualizado:14/10/2019 15:51hGUARDAR

El proyecto «Carabela» puesto en marcha por científicos de la Universidad Politécnica de Valencia y del Centro de Arqueología Subacuática de Cádiz va a revolucionar la consulta de los grandes archivos que guardan documentos del XV al XVIII. Aquí mostramos cómo trabaja esta herramienta de inteligencia artificial diseñada por el físico Enrique Vidal del Centro de Investigación de Reconocimiento de Patrones y Tecnología del Lenguaje Humano (PRHLT por sus siglas en inglés) y entrenada por el paleógrafo Carlos Alonso Villalobos después de transcribir 514 documentos del Archivo General de Indias y del Provincial de Cádiz que sirvieron de ejemplos. El proyecto ha sido posible gracias a la financiación de la Fundación BBVA.

Lo que se hace esta técnica es «indexar probabilísticamente las imágenes de forma que luego se pueda hacer en ellas el típo de búsquedas que pueden verse en los vídeos», comenta Enrique Vidal. Para obtener estos «mapas probabilísticos de palabras», se utilizan modelos estadísticos de dos tipos. Porque hay que tener en cuenta que los tipos de escritura presentes en los archivos a lo largo de cuatro siglos varían sustancialmente.

Así, primero están los modelos «ópticos», que son los que determinan qué trazos se espera que configuren cada carácter para cada estilo de escritura, y en segundo lugar están los modelos «de lenguaje» que definen «cómo se espera que se combinen los caracteres para formar palabras y las palabras para formar frases».

Los modelos ópticos y de lenguaje se aprenden automáticamente mediante técnicas de aprendizaje automático («machine learning») a partir de ejemplos representativos de lo que se quiere modelar (la transcripción de esos 514 documentos ayudó y se bastó para las búsquedas en otros 150.000 manuscritos).

Para explicar este entrenamiento cabe decir que cada dato es un par formado por una imágen y su transcripción. La tecnología de «Indexación Probabilística» que se ha empleado en este proyecto «Carabela» es propia del centro PRHLT y «va muy por delante de las técnicas que vienen usando incluso los equipos de investigación mas avanzados del mundo», subraya Vidal.

Sorpresa en Australia

En Australia, este catedrático del Área de Lenguajes y Sistemas Informáticos presentó el proyecto después de recibir una invitación para que explicara a la comunidad científica los «secretos» de «cómo estamos consiguiendo con tanta rapidez y aparente facilidad resultados tan precisos para colecciones tan grandes».

Si uno piensa que después de una década trabajando no había grandes resultados hasta que lograron un sistema de transcripción que hizo posible el «machine learning», la idea de «facilidad» se convierte en algo muy relativo, según nos explica el responsable del algoritmo.

Enrique Vidal califica de «despiadados» los complicados estilos de escritura considerados y por ello reconoce que «el papel de Carlos Alonso y su equipo ha sido crucial para superar estas enormes dificultaes. Su tarea ha sido escoger y transcribir meticulosamente aquellas imágenes de «entrenamiento» necesarias para contemplar la mayoría de estilos de escritura que se esperan encontrar» en los fondos archivísticos, así como para «detectar aquellos estilos en los que los resultados no eran satisfactorios y así ampliar adecuadamente el corpus de entrenamiento en esos casos». Vidal concluque que «ha sido «gracias a la acertada intuición y la gran comprensión del problema por parte de Carlos y su equipo, que finalmente el sistema ha sido capaz de aprender modelos ópticos y de lenguaje que son a la vez suficientemente generales y precisos para permitir encontrar información textual útil en imágenes de texto no transcritas y cuya lectura es extremadamente difícil, incluso para expertos humanos».

La ciencia en España está de enhorabuena. Ahora la pregunta es: ¿serán conscientes nuestras autoridades culturales de la potencialidad de este proyecto científico para la investigación histórica? ¿Y del peligro de no atenderla con proyectos de investigación archivística esta nueva posibilidad que pondría la tecnología en espera de que alguien pudiera usarla en lugar de los científicos españoles? Los grandes logros merecen atención de nuestros políticos.

Source: ABC

Judith Chao Andrade

Apasionada del conocimiento, de compartirlo y de aprender de todo lo que me rodea, disfruto aprendiendo y realizando actividades. Actualmente estoy aprendiendo programación pero me fascinan los temas relacionados con los materiales especiales, las cuiriosidades, el humor, los eventos, las redes sociales ... Mi mayor interés podría decir que es no perder nunca la cuiriosidad por lo que si tienes un plan en mente solo proponlo !.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

X
X
X
X