MarIA: la inteligencia artificial que aprendió español en la Biblioteca Nacional

Desarrollada por el Barcelona Supercomputing Center, es el primer modelo de la lengua española realizado con inteligencia artificial y basado en datos masivos

ARAGÓN CULTURA / 14/08/2021 - 07:00

Se llama MarIA y es una inteligencia artificial que ha aprendido a pensar en español gracias a los archivos de la Biblioteca Nacional. Es capaz de comprender y escribir en castellano, puede utilizarse sin coste alguno para diversas aplicaciones: desde los correctores o predictores del lenguaje, hasta los resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción o subtitulación automática.

El modelo ha sido creado en el Barcelona Supercomputing Center -Centro Nacional de Supercomputación y se ha entrenado en el superordenador MareNostrum con archivos de datos de la Biblioteca Nacional de España.

El primer modelo de IA masivo de la lengua española

MarIA es un conjunto de modelos del lenguaje o, dicho de otro modo, redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto. Es capaz de trabajar con interdependencias cortas y largas y puede ntender, no sólo conceptos abstractos, sino también el contexto de los mismos.

El primer paso para crear un modelo de la lengua es elaborar un corpus de palabras y frases que será la base sobre la que se entrenará el sistema. Para crear el corpus de MarIA, se utilizaron 59 terabytes (equivale a 59.000 gigabytes) del archivo web de la BNE.

Posteriormente, estos archivos se procesaron para eliminar todo aquello que no fuera texto bien formado (números de páginas, gráficos, oraciones que no terminan, codificaciones erróneas, oraciones duplicadas, otros idiomas, etc.) y se guardaron solamente los textos bien formados en la lengua española, tal y como es realmente utilizada. Para este cribado y su posterior compilación fueron necesarias 6.910.000 horas de procesadores del superordenador MareNostrum y los resultados fueron 201.080.084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades.

Este corpus supera en varias órdenes de magnitud el tamaño y la calidad de los corpus disponibles en la actualidad. Se trata de un corpus que enriquecerá el patrimonio digital del español y del propio archivo de la BNE y que podrá servir para múltiples aplicaciones en el futuro, como tener una imagen temporal que permita analizar la evolución de la lengua, comprender la sociedad digital en su conjunto y, por supuesto, el entreno de nuevos modelos.

Una vez creado el corpus, los investigadores utilizaron una tecnología de redes neuronales (basada en la arquitectura Transformer), que ha demostrado excelentes resultados en el inglés y que se entrenó para aprender a utilizar la lengua. Las redes neuronales multicapa son una tecnología de inteligencia artificial y los entrenamientos consisten, entre otras técnicas, en presentar a la red textos con palabras ocultas, para que aprenda a adivinar cuál es la palabra ocultada dado su contexto.

Para este entrenamiento han sido necesarias 184.000 horas de procesador y más de 18.000 horas de GPU. Los modelos liberados hasta ahora tienen 125 millones y 355 millones de parámetros respectivamente.

Marta Villegas, responsable del proyecto y líder del grupo de minería de textos del BSC-CNS, explica la importancia de poder implementar las nuevas tecnologías de IA "que están transformando completamente el campo del procesamiento del lenguaje natural. Con este proyecto contribuimos a que el país se incorpore a esta revolución científico-técnica y se posicione como actor de pleno derecho en el tratamiento computacional del español".

Próximos pasos

Después de lanzar los modelos generales, el equipo minería de textos está trabajando en la ampliación del corpus, con nuevas fuentes de archivos que aportarán textos con particularidades diferentes a los que se encuentran en los entornos web, como por ejemplo publicaciones científicas del CSIC.

También está prevista la generación de modelos entrenados con textos de diferentes lenguas: castellano, catalán, gallego, euskera, portugués y español de Hispanoamérica.

Audios

Entrevista a Marta Villegas en 'La Cadiera'

Descargar

Guardado en...

Audios

Entrevista a Marta Villegas en 'La Cadiera'

Descargar