Ir al contenido principal

Aeneas: IA para conectar a los historiadores con el pasado

Aeneas: IA para conectar a los historiadores con el pasado

Las inscripciones del mundo romano, grabadas en monumentos imperiales y objetos cotidianos, ofrecen valiosas perspectivas sobre la vida diaria. Sin embargo, muchas veces estos textos están fragmentados, erosionados o deliberadamente dañados, lo que dificulta su restauración, datación e interpretación. La contextualización se vuelve esencial para desentrañar su significado.

Un nuevo modelo de inteligencia artificial, llamado Aeneas, promete transformar la forma en que los historiadores abordan estos desafíos. Desarrollado en colaboración con varias universidades, Aeneas es el primer modelo de IA diseñado para contextualizar inscripciones antiguas. La herramienta es capaz de buscar paralelos textuales y contextuales en una vasta colección de inscripciones latinas, acelerando significativamente el proceso de investigación histórica.

¿Cómo funciona Aeneas?

Aeneas es una red neuronal generativa multimodal que utiliza tanto el texto como la imagen de una inscripción como entrada. Para "enseñar" a Aeneas, se creó un conjunto de datos grande y confiable a partir de décadas de trabajo de historiadores, que incluyen:

  • Epigraphic Database Roma (EDR)
  • Epigraphic Database Heidelberg (EDH)
  • Epigraphic Database Clauss Slaby (EDCS-ELT)

Estos registros fueron limpiados, armonizados y vinculados en un único conjunto de datos denominado Latin Epigraphic Dataset (LED), que contiene más de 176,000 inscripciones latinas del mundo romano antiguo.

El modelo utiliza un decodificador basado en transformadores para procesar el texto de una inscripción. Redes especializadas manejan la restauración de caracteres y la datación utilizando texto, mientras que la atribución geográfica también utiliza imágenes de las inscripciones como entrada. El decodificador recupera inscripciones similares del LED, clasificadas por relevancia.

Para cada inscripción, el mecanismo de contextualización de Aeneas recupera una lista de paralelos utilizando una técnica llamada "embeddings". Esto consiste en codificar la información textual y contextual de cada inscripción en una especie de "huella digital histórica", que contiene detalles sobre el contenido del texto, su lenguaje, cuándo y dónde se originó, y cómo se relaciona con otras inscripciones.

Metáfora: Imaginen a Aeneas como un detective que, al analizar la escena de un crimen (una inscripción fragmentada), busca pistas en una base de datos gigante de casos similares (el LED). Cada inscripción es como un sospechoso, y la "huella digital histórica" es su perfil, que incluye su nombre (contenido del texto), su historial (cuándo y dónde vivió) y sus conexiones con otros sospechosos (otras inscripciones).

Capacidades Avanzadas de Aeneas

Aeneas va más allá de la simple restauración de textos. Sus capacidades incluyen:

  • Búsqueda de paralelos: Encuentra textos similares en una vasta colección de inscripciones latinas. Convierte cada texto en una "huella digital histórica" para identificar conexiones profundas.

  • Procesamiento de entrada multimodal: Es el primer modelo en determinar la procedencia geográfica de un texto utilizando tanto texto como imágenes de la inscripción.

  • Restauración de huecos de longitud desconocida: Puede restaurar partes faltantes en textos donde la longitud de la parte faltante es desconocida.

  • Rendimiento de última generación: Alcanza un nuevo estándar en la restauración de textos dañados y la predicción de cuándo y dónde fueron escritos.

Aeneas en acción: Un nuevo enfoque para los debates históricos

Para probar las capacidades de Aeneas en un debate de investigación en curso, se le proporcionó una de las inscripciones romanas más famosas: la Res Gestae Divi Augusti, el relato en primera persona del emperador Augusto sobre sus logros.

Los historiadores han debatido durante mucho tiempo la datación de esta inscripción. En lugar de predecir una sola fecha fija, Aeneas produjo una distribución detallada de fechas posibles, mostrando dos picos distintos, uno más pequeño alrededor del 10-1 a. C. y otro más grande y seguro entre el 10 y el 20 d. C. Estos resultados capturaron ambas hipótesis de datación prevalecientes de forma cuantitativa.

Aeneas basó sus predicciones en características lingüísticas sutiles y marcadores históricos como títulos oficiales y monumentos mencionados en el texto. Al convertir la cuestión de la datación en una estimación probabilística basada en datos lingüísticos y contextuales, el modelo ofrece una nueva forma cuantitativa de abordar debates históricos de larga data.

Metáfora: Piensen en Aeneas como un panel de expertos que, en lugar de llegar a un consenso inmediato sobre la fecha de la inscripción, presenta un rango de posibilidades basadas en la evidencia disponible. Cada fecha posible tiene un "peso" diferente, reflejando la confianza que el modelo tiene en ella.

Implicaciones y Futuro de Aeneas

Aeneas representa un avance significativo en la aplicación de la IA a la investigación histórica. Al acelerar la búsqueda de paralelos y ofrecer información contextual valiosa, Aeneas puede ayudar a los historiadores a interpretar inscripciones fragmentadas y reconstruir una imagen más completa del pasado.

Para maximizar el impacto de esta investigación, una versión interactiva de Aeneas está disponible de forma gratuita para investigadores, estudiantes, educadores y profesionales de museos. Además, el código y el conjunto de datos están disponibles como código abierto para fomentar la investigación y el desarrollo.

La combinación de la experiencia humana con el aprendizaje automático abre un proceso colaborativo, que ofrece sugerencias interpretables que sirven como valiosos puntos de partida para la investigación histórica.

Referencias:

Entradas populares de este blog

Enrutamiento Dinámico y Avanzado con Amazon API Gateway: ¡Adiós a los Proxies!

Enrutamiento Dinámico y Avanzado con Amazon API Gateway: ¡Adiós a los Proxies! En el mundo de las arquitecturas de microservicios, dirigir el tráfico de manera eficiente y flexible es un desafío constante. Tradicionalmente, esto implicaba configurar y mantener capas de proxy complejas o crear estructuras de URL enrevesadas. Sin embargo, Amazon API Gateway ha simplificado este proceso radicalmente con la introducción de las Reglas de Enrutamiento ( Routing Rules ), permitiendo un enrutamiento dinámico basado en cabeceras HTTP. En este post, exploraremos cómo esta funcionalidad puede simplificar tu arquitectura, reducir la sobrecarga operativa y habilitar patrones de despliegue avanzados como Canary Releases y A/B Testing de forma nativa. ¿Qué son las Reglas de Enrutamiento? Las Routing Rules son un recurso que se asocia a un dominio personalizado en API Gateway. Permiten desviar las solicitudes entrantes a diferentes integraciones de backend (como una etapa específica de ...

Python 3.14 y el Fin del GIL: Explorando Oportunidades y Desafíos

Python 3.14 y el Fin del GIL: Explorando Oportunidades y Desafíos La versión 3.14 de Python ha generado gran expectativa, principalmente por la implementación de mejoras significativas, entre las que destacan: Sub-intérpretes: Disponibles en Python durante dos décadas, pero limitados al uso de código C. Ahora se pueden emplear directamente desde Python. T-Strings: Un nuevo método para el procesamiento personalizado de cadenas, con una sintaxis similar a los f-strings , pero que devuelve un objeto que representa tanto las partes estáticas como las interpoladas de la cadena. Compilador Just-In-Time (JIT): Aunque aún experimental, esta característica promete mejorar el rendimiento en casos de uso específicos. Sin embargo, el aspecto más relevante de esta versión es la introducción de Python con hilos libres , también conocido como Python sin GIL . Es importante señalar que la versión estándar de Python 3.14 seguirá utilizando el GIL, pero se puede descargar (o construir) u...

¿Qué es el patrón Circuit Breaker y cómo se puede implementar con AWS Step Functions?

En el desarrollo de software, es común que las aplicaciones se comuniquen con servicios o recursos externos, como bases de datos, APIs o microservicios. Sin embargo, estos servicios o recursos pueden fallar o estar temporalmente indisponibles por diversas razones, lo que puede afectar el rendimiento y la disponibilidad de la aplicación. Para manejar estos escenarios de falla, se puede utilizar el patrón Circuit Breaker, que consiste en detectar y prevenir que una operación que tiene alta probabilidad de fallar se ejecute repetidamente, causando más problemas o consumiendo recursos innecesarios.  El patrón Circuit Breaker tiene tres estados posibles: cerrado, abierto y medio abierto. Cerrado : En este estado, el circuito está funcionando normalmente y la operación se ejecuta sin problemas. Si se detecta una falla, se incrementa un contador de fallas y se calcula un umbral de fallas, que puede ser un número o un porcentaje de fallas permitidas. Si el contador de fallas supera el u...