jueves, septiembre 05, 2024

Códigos Antiguos, Algoritmos Modernos: Cómo la IA Rescata Papiros de la Antigua Roma de hace 2000 años

El impacto de la Inteligencia Artificial (IA) en ayudar a descifrar la Historia no es algo nuevo, pero igualmente no deja de sorprendernos. Ya hablamos en este artículo sobre cómo se descifraron las cartas de María I de Escocia y hoy queremos contaros otro gran hito, esta vez incluso más complejo aún, donde se han podido recuperar y descifrar unos papiros romanos, en concreto los papiros de Herculano
Por cierto, esto no es más que un ejemplo más de caso de uso de la Inteligencia Artificial, para resolver problemas complejos que no parecían tener solución, y que además es otro caso de uso de seguridad de la información, porque se trata de proteger la pérdida de ella. Este libro de Machine Learning aplicado a Ciberseguridad te ayuda a adentrarte a cómo usar la IA dentro de este otro campo.


Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Volviendo al caso de uso de la recuperación de los papiros, la extrema fragilidad de estos rollos carbonizados ha impedido su lectura completa durante muchos años. Los primeros intentos de desenrollarlos físicamente en el siglo XVIII resultaron en la destrucción de muchos ejemplares. Y es justo aquí donde la Inteligencia Artificial entra en juego, ofreciendo una nueva esperanza para descifrar estos textos sin llegar a dañarlos físicamente (esto es la clave). Pero vamos a aprender un poco más sobre estos papiros y cómo ha sido su proceso de recuperación.

La importancia de los papiros de Herculano

Los papiros de Herculano son una ventana única al pensamiento y la cultura del mundo grecorromano, ofreciendo una conexión directa con el Siglo I d.C. A diferencia de muchos textos antiguos conocidos a través de copias medievales, estos rollos son documentos originales, directos de la época y de incalculable valor histórico.

La mayoría de los textos descifrados hasta ahora son obras del filósofo epicúreo Filodemo de Gádara, lo que ha llevado a especular que la villa pudo haber pertenecido a Lucio Calpurnio Pisón Cesonino, suegro de Julio César y mecenas de Filodemo, subrayando así la importancia potencial de los textos aún sin descifrar.


El potencial de estos papiros para ampliar nuestro conocimiento del mundo antiguo es realmente importante. Prometen revelar obras filosóficas perdidas, como escritos originales de Epicuro y sus discípulos, información histórica detallada sobre la vida, la política y la sociedad romana del Siglo I. También nos puede mostrar avances significativos en filología, incluyendo nuevos conocimientos sobre el griego y el latín antiguos. En definitiva, puede mostrarnos valiosas perspectivas culturales sobre la literatura, el arte y las creencias de la época.

La complejidad de la preservación y lectura de pergaminos antiguos

Los papiros de Herculano, carbonizados por la erupción del Vesubio en el 79 d.C., ya hemos mencionado que presentan un gran desafío en su preservación y lectura. Su extrema fragilidad, sensibilidad a cambios ambientales y el deterioro progresivo hacen que cualquier manipulación física sea altamente peligrosa para su integridad.

La carbonización ha oscurecido tanto el papiro como la tinta, dificultando enormemente la distinción entre ambos. Los métodos tradicionales como el desenrollado mecánico, los dibujos y calcos, la fotografía multispectral y la tomografía computarizada han demostrado ser limitados o potencialmente dañinos.


Estas limitaciones han creado la necesidad de nuevos enfoques para acceder al contenido de los rollos sin destruirlos. Y es aquí donde la Inteligencia Artificial aparece como una solución prometedora. El uso de IA, con su capacidad para procesar grandes cantidades de datos y detectar patrones sutiles, ofrece el potencial de mejorar significativamente la calidad de las imágenes, distinguir entre tinta y papiro carbonizado con mayor precisión, automatizar el proceso de "desenrollado virtual" y reconstruir texto fragmentario con predicciones. Estas capacidades están revolucionando nuestra habilidad para acceder a estos tesoros históricos sin comprometer su integridad física.

La IA aplicada a los pergaminos de Herculano

Las tecnologías de Inteligencia Artificial aplicadas a Los papiros de Herculano se centran principalmente en el aprendizaje automático y la visión por ordenador. Las Redes Neuronales Convolucionales (CNN) son fundamentales en este proceso, ya que son especialmente eficaces en el reconocimiento y clasificación de imágenes.

Estas redes analizan las imágenes de los papiros carbonizados píxel por píxel, aprendiendo a distinguir entre la tinta y el fondo del papiro. Este enfoque "pointillista", como lo describe el Dr. Brent Seales, permite identificar regiones de tinta en los rollos cerrados con una precisión sin precedentes.


Además de las CNN, los modelos Transformers juegan un papel crucial en el procesamiento del texto una vez identificado. Estos modelos, conocidos por su capacidad para manejar secuencias largas y capturar contexto, son ideales para restaurar y atribuir textos antiguos.

Por ejemplo, el Modelo Ithaca, basado en Transformers, ha demostrado una precisión del 62% en la restauración de textos dañados, superando significativamente a los métodos tradicionales. Estas tecnologías de Inteligencia Artificial no solo permiten leer lo que está escrito en los papiros, sino que también pueden predecir el contenido de secciones dañadas o faltantes, basándose en patrones aprendidos de otros textos antiguos.

El Vesuvius Challenge: Un esfuerzo colaborativo con detalles técnicos
 
El Vesuvius Challenge, lanzado en marzo de 2023, es una iniciativa de ciencia ciudadana que busca descifrar Los papiros de Herculano utilizando técnicas de Inteligencia Artificial. El desafío emplea un enfoque de "desenrollado virtual" basado en imágenes de Tomografía Computarizada (TC) de alta resolución.
Estas imágenes se procesan utilizando una arquitectura de Red Neuronal Profunda, específicamente una U-Net modificada, que ha sido entrenada para detectar la presencia de tinta en cada vóxel (un píxel tridimensional) de la imagen de Tomografía Computerizada

La red utiliza Capas Convolucionales para extraer características a múltiples escalas, seguidas de capas de upsampling (el upsampling en CNN aumenta la resolución de los datos para recuperar detalles perdidos) para producir un mapa de probabilidad de tinta de alta resolución. Este proceso se realiza en pequeños sub-volúmenes, permitiendo un análisis detallado de cada sección del papiro.


Figura 7: Desenrrollado virtual de los papiros

Una vez que la red identifica las regiones de tinta, se aplican algoritmos de segmentación para separar las capas individuales del papiro enrollado. Aquí es donde entra en juego el Aprendizaje por refuerzo profundo (Reinforcement Learning): un agente de IA, entrenado mediante técnicas de Q-learning, navega por el volumen 3D del papiro, tomando decisiones sobre cómo "desenrollar" virtualmente el manuscrito. Este agente utiliza una función de recompensa que maximiza la legibilidad del texto mientras minimiza la distorsión de la estructura del papiro.

Paralelamente, se emplean modelos de lenguaje basados en Transformers, como GPT, para ayudar en la reconstrucción de texto parcial o dañado. Estos modelos han sido afinados (fine-tuned) con corpus de textos griegos antiguos para mejorar su precisión en este contexto específico. El Vesuvius Challenge ha logrado avances significativos, incluyendo la identificación de la primera palabra ("púrpura") en uno de los papiros sin abrir en octubre de 2023, demostrando el potencial de este enfoque colaborativo y tecnológico.

La gran importancia de la IA para el estudio de textos antiguos

Las implicaciones de la aplicación de la inteligencia artificial al estudio de textos antiguos van mucho más allá de Los papiros de Herculano. Esta tecnología está transformando fundamentalmente el campo de la filología y la arqueología textual. La capacidad de la Inteligencia Artificial para procesar y analizar grandes volúmenes de datos está acelerando drásticamente el ritmo de los descubrimientos, permitiendo a los investigadores abordar corpus enteros de textos en fracciones del tiempo que antes requerían.
Por otro lado, la precisión y sensibilidad de los algoritmos de IA están revelando detalles que antes eran imperceptibles para el ojo humano, desde trazos de tinta apenas visibles hasta patrones lingüísticos sutiles. Esto no solo está permitiendo la recuperación de textos perdidos, sino que también está proporcionando nuevas perspectivas sobre la evolución de las lenguas y las culturas antiguas.

Más allá de la mera recuperación de textos, la IA está abriendo nuevas vías de investigación interdisciplinaria. Los modelos de lenguaje entrenados en textos antiguos pueden ayudar a los historiadores a identificar influencias y conexiones entre diferentes culturas y períodos históricos. Las técnicas de análisis de redes, aplicadas a corpus de textos antiguos, pueden revelar patrones de difusión de ideas y conocimientos en el mundo antiguo.
Además, la capacidad de la IA para procesar y comparar rápidamente múltiples versiones de un texto está revolucionando los estudios, permitiendo una comprensión más profunda de cómo los textos antiguos se transmitieron y evolucionaron a lo largo del tiempo. A medida que estas tecnologías continúan desarrollándose, prometen recuperar textos perdidos, y también proporcionar una comprensión mayor de las civilizaciones antiguas, potencialmente reescribiendo capítulos enteros de nuestra historia cultural. Y esto es solo el principio.

Happy Hacking Hackers!!! 

Autor: Fran Ramírez, es investigador de seguridad y miembro del equipo de Ideas Locas en CDO en Telefónica, co-autor del libro "Microhistorias: Anécdotas y Curiosidades de la historia de la informática (y los hackers)", del libro "Docker: SecDevOps", también de "Machine Learning aplicado a la Ciberseguridad” además del blog CyberHades. Puedes contactar con Fran Ramirez en MyPublicInbox.

 Contactar con Fran Ramírez en MyPublicInbox

No hay comentarios:

Publicar un comentario