Ir al contenido principal

Aeneas: IA para conectar a los historiadores con el pasado

Aeneas: IA para conectar a los historiadores con el pasado

Las inscripciones del mundo romano, grabadas en monumentos imperiales y objetos cotidianos, ofrecen valiosas perspectivas sobre la vida diaria. Sin embargo, muchas veces estos textos están fragmentados, erosionados o deliberadamente dañados, lo que dificulta su restauración, datación e interpretación. La contextualización se vuelve esencial para desentrañar su significado.

Un nuevo modelo de inteligencia artificial, llamado Aeneas, promete transformar la forma en que los historiadores abordan estos desafíos. Desarrollado en colaboración con varias universidades, Aeneas es el primer modelo de IA diseñado para contextualizar inscripciones antiguas. La herramienta es capaz de buscar paralelos textuales y contextuales en una vasta colección de inscripciones latinas, acelerando significativamente el proceso de investigación histórica.

¿Cómo funciona Aeneas?

Aeneas es una red neuronal generativa multimodal que utiliza tanto el texto como la imagen de una inscripción como entrada. Para "enseñar" a Aeneas, se creó un conjunto de datos grande y confiable a partir de décadas de trabajo de historiadores, que incluyen:

  • Epigraphic Database Roma (EDR)
  • Epigraphic Database Heidelberg (EDH)
  • Epigraphic Database Clauss Slaby (EDCS-ELT)

Estos registros fueron limpiados, armonizados y vinculados en un único conjunto de datos denominado Latin Epigraphic Dataset (LED), que contiene más de 176,000 inscripciones latinas del mundo romano antiguo.

El modelo utiliza un decodificador basado en transformadores para procesar el texto de una inscripción. Redes especializadas manejan la restauración de caracteres y la datación utilizando texto, mientras que la atribución geográfica también utiliza imágenes de las inscripciones como entrada. El decodificador recupera inscripciones similares del LED, clasificadas por relevancia.

Para cada inscripción, el mecanismo de contextualización de Aeneas recupera una lista de paralelos utilizando una técnica llamada "embeddings". Esto consiste en codificar la información textual y contextual de cada inscripción en una especie de "huella digital histórica", que contiene detalles sobre el contenido del texto, su lenguaje, cuándo y dónde se originó, y cómo se relaciona con otras inscripciones.

Metáfora: Imaginen a Aeneas como un detective que, al analizar la escena de un crimen (una inscripción fragmentada), busca pistas en una base de datos gigante de casos similares (el LED). Cada inscripción es como un sospechoso, y la "huella digital histórica" es su perfil, que incluye su nombre (contenido del texto), su historial (cuándo y dónde vivió) y sus conexiones con otros sospechosos (otras inscripciones).

Capacidades Avanzadas de Aeneas

Aeneas va más allá de la simple restauración de textos. Sus capacidades incluyen:

  • Búsqueda de paralelos: Encuentra textos similares en una vasta colección de inscripciones latinas. Convierte cada texto en una "huella digital histórica" para identificar conexiones profundas.

  • Procesamiento de entrada multimodal: Es el primer modelo en determinar la procedencia geográfica de un texto utilizando tanto texto como imágenes de la inscripción.

  • Restauración de huecos de longitud desconocida: Puede restaurar partes faltantes en textos donde la longitud de la parte faltante es desconocida.

  • Rendimiento de última generación: Alcanza un nuevo estándar en la restauración de textos dañados y la predicción de cuándo y dónde fueron escritos.

Aeneas en acción: Un nuevo enfoque para los debates históricos

Para probar las capacidades de Aeneas en un debate de investigación en curso, se le proporcionó una de las inscripciones romanas más famosas: la Res Gestae Divi Augusti, el relato en primera persona del emperador Augusto sobre sus logros.

Los historiadores han debatido durante mucho tiempo la datación de esta inscripción. En lugar de predecir una sola fecha fija, Aeneas produjo una distribución detallada de fechas posibles, mostrando dos picos distintos, uno más pequeño alrededor del 10-1 a. C. y otro más grande y seguro entre el 10 y el 20 d. C. Estos resultados capturaron ambas hipótesis de datación prevalecientes de forma cuantitativa.

Aeneas basó sus predicciones en características lingüísticas sutiles y marcadores históricos como títulos oficiales y monumentos mencionados en el texto. Al convertir la cuestión de la datación en una estimación probabilística basada en datos lingüísticos y contextuales, el modelo ofrece una nueva forma cuantitativa de abordar debates históricos de larga data.

Metáfora: Piensen en Aeneas como un panel de expertos que, en lugar de llegar a un consenso inmediato sobre la fecha de la inscripción, presenta un rango de posibilidades basadas en la evidencia disponible. Cada fecha posible tiene un "peso" diferente, reflejando la confianza que el modelo tiene en ella.

Implicaciones y Futuro de Aeneas

Aeneas representa un avance significativo en la aplicación de la IA a la investigación histórica. Al acelerar la búsqueda de paralelos y ofrecer información contextual valiosa, Aeneas puede ayudar a los historiadores a interpretar inscripciones fragmentadas y reconstruir una imagen más completa del pasado.

Para maximizar el impacto de esta investigación, una versión interactiva de Aeneas está disponible de forma gratuita para investigadores, estudiantes, educadores y profesionales de museos. Además, el código y el conjunto de datos están disponibles como código abierto para fomentar la investigación y el desarrollo.

La combinación de la experiencia humana con el aprendizaje automático abre un proceso colaborativo, que ofrece sugerencias interpretables que sirven como valiosos puntos de partida para la investigación histórica.

Referencias:

Entradas populares de este blog

Event Driven Architecture & Big ball of mud

EDA Una arquitectura event-driven (EDA) es un estilo de diseño que se basa en la producción, detección y reacción a eventos. Un evento es un cambio de estado significativo en el sistema o en el entorno que puede ser notificado a otros componentes interesados. Una arquitectura event-driven permite una mayor desacoplamiento, escalabilidad y resiliencia entre los componentes del sistema, así como una mejor adaptabilidad a los cambios y a las necesidades del negocio. Sin embargo, una arquitectura event-driven también puede tener sus desafíos y riesgos, especialmente si no se aplica una buena gestión de los dominios y los boundaries. Un dominio es un conjunto de conceptos, reglas y procesos relacionados con un aspecto del negocio o del problema que se quiere resolver. Un boundary es una frontera lógica que separa y protege un dominio de otros dominios o de influencias externas. Un buen diseño de dominios y boundaries facilita la comprensión, el mantenimiento y la evolución del sistema, así ...

¿Qué es el patrón Circuit Breaker y cómo se puede implementar con AWS Step Functions?

En el desarrollo de software, es común que las aplicaciones se comuniquen con servicios o recursos externos, como bases de datos, APIs o microservicios. Sin embargo, estos servicios o recursos pueden fallar o estar temporalmente indisponibles por diversas razones, lo que puede afectar el rendimiento y la disponibilidad de la aplicación. Para manejar estos escenarios de falla, se puede utilizar el patrón Circuit Breaker, que consiste en detectar y prevenir que una operación que tiene alta probabilidad de fallar se ejecute repetidamente, causando más problemas o consumiendo recursos innecesarios.  El patrón Circuit Breaker tiene tres estados posibles: cerrado, abierto y medio abierto. Cerrado : En este estado, el circuito está funcionando normalmente y la operación se ejecuta sin problemas. Si se detecta una falla, se incrementa un contador de fallas y se calcula un umbral de fallas, que puede ser un número o un porcentaje de fallas permitidas. Si el contador de fallas supera el u...

¿Cómo usar Lambda con Amazon SQS para procesar mensajes de forma asíncrona y escalable?

Amazon Simple Queue Service (Amazon SQS) es un servicio de colas de mensajes que permite enviar y recibir mensajes entre componentes de una aplicación de forma fiable y duradera. Con Amazon SQS, se puede desacoplar la lógica de negocio de la fuente de los eventos, y procesarlos de forma asíncrona y en paralelo.   En este artículo, vamos a ver cómo usar Lambda con Amazon SQS para procesar mensajes de una cola de forma eficiente y flexible, aprovechando las características de concurrencia, escalamiento y procesamiento del event source mapping de Lambda, así como la estrategia de backoff que implementa Lambda para manejar errores y reintentos.   Concurrencia del event source mapping Un event source mapping es una configuración que le dice a Lambda qué fuente de eventos debe monitorear y qué función debe invocar cuando se produzca un evento. En el caso de Amazon SQS, el event source mapping se encarga de leer los mensajes de la cola y enviarlos a la función Lambda en lotes. La con...