Leia-X para Google Chrome: Una extensión para desambiguar palabras con Inteligencia Artificial
La última semana de Abril tuvo lugar el Congreso de Lengua Española en Cádiz, donde Su Majestad El Rey presidió una sesión de trabajo sobre LEIA, el proyecto de Lengua Española e Inteligencia Artificial, donde las empresas tecnológicas hicieron un recorrido sobre los avances que están haciendo a dicho respecto.
Entre ellas, Telefónica, que impulsó este proyecto desde el principió, presentó una pequeña herramienta que hemos desarrollado junto con la RAE para que los estudiantes de Lengua Española puedan desambiguar el significado de una palabra en un texto.
Figura 2: Telefónica y Leia
El resultado es una extensión para Google Chrome llamada Leia-X - se irán publicando más formas de conectarse al servicio - que utiliza Inteligencia Artificial para analizar el contexto de un término y poder elegir cuál es la acepción más probable del diccionario que se está utilizando en ese uso concreto.
Para utilizar la extensión se puede descargar desde la Chrome Web Store de Leia-X. Y una vez que se instale, su funcionamiento es muy sencillo, ya que basta con seleccionar un término en una web, hacer clic con el botón derecho del ratón, y pedir a Leia-X que lo desambígüe.
Así, en el ejemplo anterior, jáquer tenía una connotación negativa, y el resultado más probable es que esté haciendo referencia a un "pirata informático", algo que sucede muchas veces en textos - por desgracia -.
Pero en el ejemplo anterior, el resultado es justo lo contrario, ya que hace referencia a una acepción positiva del término - como es para nosotros, vaya -, así que el resultado de Leia-X es la acepción de la RAE que más nos gusta.
Funcionamiento de Leia-X
Según explica el Dr. Richard Benjamins, responsable de este proyecto, en la nota de prensa que hicimos en Telefónica, la extensión se basa en un modelo entrenado específicamente con texto en español (concretamente el modelo BETO, entrenado por la Universidad de Chile) para la resolución de un problema que no necesita los grandes modelos del lenguaje (LLMs por sus siglas en inglés) como GPT3 o GPT4: la desambiguación del significado de una palabra.
Figura 6: Funcionamiento de Leia-X
El modelo (BETO) se entrenó, por la Universidad de Chile, en una tarea que se conoce como “fill the mask”, relleno de máscara, y que consiste en, dada una frase, enmascarar una palabra y pedir al modelo que intente predecir cuál es la palabra que mejor se ajusta. Este método de aprendizaje automático se llama “auto supervisado”. Al realizar esto un número suficiente de veces, el modelo es capaz de extrapolar qué palabras están relacionadas con el contexto en la frase o cuál es, por ejemplo, el sentimiento de la frase, cuando se requiere utilizar un verbo o un sustantivo. En resumen, la IA aprende a extraer el conocimiento o correlaciones entre las palabras que componen una frase.
De esta manera, se ha construido un corpus de más de 70.000 ejemplos basados en varios diccionarios provisto por la RAE. En el Diccionario del Estudiante cada acepción o definición de una entrada tiene un ejemplo positivo, la acepción correcta. Para complementar dicho corpus, también se ha aprovechado el conocimiento provisto por el Diccionario de la Lengua Española (DLE) en el cual aproximadamente el 15% de sus acepciones tiene ejemplos de uso. Gracias al corpus generado se ha adaptado el modelo BETO incorporándole la capacidad de desambiguar.
Figura 8: Acepciones del término Hacker en el DRAE |
Una vez adaptado, el modelo - LEIA-X - es capaz de asignar a cada una de las duplas palabra-oración la confianza o probabilidad que un significado concreto sea el correcto. En el caso del ejemplo de «banco», para la primera oración el modelo asignaría una probabilidad cercana al 0% y para la segunda una confianza cercana al 100%, mostrándonos esta última como el significado más probable. Ha conseguido, por tanto, desambiguar la palabra.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
No hay comentarios:
Publicar un comentario