Breve Historia de GPT a través de sus Publicaciones
Los modelos de lenguaje están alcanzando niveles de sofisticación notables. Pero, ¿cuál es su origen? Este artículo explora los avances clave que condujeron al lanzamiento de ChatGPT, ofreciendo una perspectiva sobre la evolución de esta tecnología disruptiva.
Prólogo: El Test de Turing
En 1950, Alan Turing propuso una prueba revolucionaria: ¿sería posible mantener una conversación con una máquina sin poder distinguirla de un humano? Turing llamó a esto el "juego de la imitación" y lo introdujo en su artículo "Computing Machinery and Intelligence". Su intención era utilizar esta prueba como un indicador para responder a una pregunta más profunda y ambigua: "¿puede una máquina pensar?".
Setenta años después, en 2020, varios modelos de lenguaje de gran escala, como ChatGPT de OpenAI, superaron versiones modernas y rigurosas de esta prueba. En 2022, OpenAI lanzó ChatGPT públicamente, capturando la atención mundial de inmediato.
Este fue el primer chatbot con el que se podía mantener una conversación extensa sobre casi cualquier tema, una aplicación evidente de un sistema capaz de superar el Test de Turing. Desde entonces, hemos sido testigos del impacto transformador de esta tecnología. Empresas como OpenAI y Anthropic, dedicadas al entrenamiento y alojamiento de estos modelos, se han convertido en algunas de las de mayor crecimiento en la historia.
Aunque pueda parecer un avance repentino, este progreso es el resultado de una evolución gradual y constante. Detrás de los titulares, se esconden numerosos avances que culminaron en este hito. De hecho, se observó un aumento significativo en la publicación de artículos científicos relacionados con el tema antes del gran avance de 2020. Desde entonces, se han producido otros desarrollos importantes que han ampliado las capacidades y mejorado el rendimiento de estos modelos.
Dado que el panorama tecnológico comienza a estabilizarse, es un buen momento para analizar algunos de los artículos clave que condujeron a este avance.
La arquitectura fundamental que catalizó este salto cuántico se conoce como Transformer. ¿Cuál fue la idea innovadora detrás de esta arquitectura?
Transformadores: Sustraer, no Sumar
La arquitectura Transformer marcó un antes y un después en los modelos de lenguaje natural, permitiendo la creación de chatbots conversacionales con los que se puede mantener una conversación prolongada. Esta arquitectura surgió del famoso artículo de 2017, "Attention is all you need".
¿Cuál fue el avance clave que hizo posible este cambio? ¿Qué elemento "faltante" de los modelos anteriores introdujo el Transformer?
Curiosamente, si analizamos la diferencia entre los elementos arquitectónicos del estado del arte anterior al Transformer y el Transformer en sí, observamos que no se añadió nada nuevo. En cambio, se eliminó un elemento específico: la recurrencia. Esto se refleja en el título del artículo: "Attention is all you need" (la atención es todo lo que necesitas), lo que implica que se puede prescindir de otros elementos que no sean la atención. Pero si este famoso artículo no inventó la atención, ¿cuál lo hizo?
La Traducción: El Origen de Todo
Aunque ChatGPT es un chatbot, y por lo tanto un candidato para superar el Test de Turing, el caso de uso que impulsó los primeros avances hacia la arquitectura Transformer fue la traducción automática, es decir, la traducción de un idioma humano a otro.
En esencia, se trata de una tarea de "secuencia a secuencia". Dada una secuencia de entrada (por ejemplo, una frase en inglés), el objetivo es generar una secuencia de salida (por ejemplo, la misma frase en español). Existen muchas otras tareas que pueden enmarcarse como problemas de secuencia a secuencia. Por ejemplo, un chatbot también se puede ver como una tarea de este tipo, donde la entrada es la consulta del usuario y la salida es la respuesta del chatbot.
En general, el progreso en este tipo de modelos es iterativo. Se parte de una arquitectura que representa el estado del arte en una tarea específica. Los investigadores identifican sus debilidades y las dificultades que presenta su uso. A continuación, se propone una nueva arquitectura que aborda estas deficiencias. Se evalúa su rendimiento mediante pruebas de referencia (benchmarks) y, si tiene éxito, se convierte en la nueva arquitectura dominante. Así es como surgió el Transformer.
Los primeros modelos de traducción automática basados en redes neuronales operaban en tres fases principales:
- Un codificador integraba la "frase de origen" en un espacio vectorial, generando un "vector de origen".
- Este vector de origen se asignaba a un "vector de destino" mediante una red neuronal (una transformación no lineal).
- Un decodificador convertía el vector de destino en la "frase de destino".
Pronto se hizo evidente que el vector encargado de codificar la frase de origen tenía demasiada responsabilidad. La frase de origen podía ser arbitrariamente larga. Por lo tanto, en lugar de utilizar un único vector para toda la frase, se optó por convertir cada palabra en un vector y añadir un elemento intermedio que seleccionara las palabras específicas en las que el decodificador debía centrarse. Este elemento arquitectónico intermedio se denominó "mecanismo de atención".
Resultó que este mecanismo intermedio, encargado de ayudar al decodificador a seleccionar las palabras a las que prestar atención, poseía características de escalabilidad muy deseables. La siguiente idea fue convertirlo en la pieza central de toda la arquitectura, lo que condujo al modelo actual, el Transformer.
Analicemos ahora los artículos clave en la traducción automática que condujeron al Transformer.
El Nacimiento de la Atención
Dado que, al parecer, "Attention is all you need" (la atención es todo lo que necesitas), primero debemos comprender qué es la atención. Para ello, debemos remitirnos al artículo que la introdujo.
- 2014: "Neural machine translation by jointly learning to align and translate"
Este artículo introdujo por primera vez el "mecanismo de atención". Se trata de una forma de que diferentes partes de una frase de origen "presten atención" a lo que entra en una determinada posición de la frase de destino durante la traducción.
Estos son los puntos clave:
- Los autores partieron del mecanismo de codificador-decodificador para la traducción entre idiomas, como se ha descrito anteriormente. La principal limitación que se identificó fue la fase de codificación (tomar una frase de origen y codificarla en un vector en un espacio de alta dimensión). Si la frase de origen era muy larga (especialmente más larga que las longitudes típicas observadas en los datos de entrenamiento), el rendimiento de los modelos de codificador-decodificador simple se deterioraba, ya que se depositaba una gran responsabilidad en el vector de destino para codificar el contexto completo de la frase de origen.
- Citando el artículo sobre su nuevo enfoque: "La característica distintiva más importante de este enfoque con respecto al codificador-decodificador básico es que no intenta codificar una frase de entrada completa en un único vector de longitud fija. En cambio, codifica la frase de entrada en una secuencia de vectores y elige un subconjunto de estos vectores de forma adaptativa al decodificar la traducción. Esto libera a un modelo de traducción neuronal de tener que comprimir toda la información de una frase de origen, independientemente de su longitud, en un vector de longitud fija. Demostramos que esto permite a un modelo afrontar mejor las frases largas". En otras palabras, pasaron de codificar toda la frase de entrada como un vector a codificar las palabras individuales de la frase de entrada como vectores.
- En el decodificador, en la sección 3, afirman: "Intuitivamente, esto implementa un mecanismo de atención en el decodificador. El decodificador decide a qué partes de la frase de origen prestar atención. Al permitir que el decodificador tenga un mecanismo de atención, liberamos al codificador de la carga de tener que codificar toda la información de la frase de origen en un vector de longitud fija. Con este nuevo enfoque, la información puede extenderse a lo largo de la secuencia de anotaciones, que el decodificador puede recuperar selectivamente en consecuencia". Esta es la primera mención del mecanismo de atención. El decodificador decide a qué partes de la frase de entrada "prestar atención" a medida que genera la secuencia de salida.
El mecanismo por el cual las palabras se convertían en vectores se basaba en redes neuronales recurrentes (RNN). Los detalles de esto se pueden obtener del propio artículo. Estas redes neuronales recurrentes se basaban en estados ocultos para codificar la información pasada de la secuencia. Si bien es conveniente tener toda esa información codificada en un solo vector, no es bueno para la paralelización, ya que ese vector se convierte en un cuello de botella y debe calcularse antes de que se pueda procesar el resto de la oración. Esto limita la medida en que el poder de las GPU se puede aplicar al entrenamiento de estos modelos.
Y Ahora, Aparentemente, es Todo lo que Necesitas
Llegamos ahora al artículo más famoso que realmente introdujo la nueva arquitectura Transformer que luego superaría la prueba de Turing.
- 2017: "Attention is all you need"
Este se originó en Google DeepMind.
Por el título, se puede deducir que los autores están hablando de la atención como si ya fuera algo establecido. Tenía 3 años en ese momento. Entonces, si no inventaron la "atención", ¿cuál fue su contribución novedosa? Como sugiere el título, simplificaron la arquitectura a "solo atención", eliminando por completo la recurrencia. Bueno, combinaron la atención con redes feed-forward simples, por lo que el título es un poco mentira. De hecho, la mayoría de los parámetros residen en las capas feed-forward. Pero se deshicieron por completo de las capas recurrentes. Solo atención y feed-forward y repetir. En paralelo ("multi-head" y también en secuencia).
Dado que la atención tenía la buena propiedad de ser paralelizable, podían escalar a arquitecturas más grandes y entrenarlas de una manera más paralelizable aprovechando el poder de las GPU.
Con esta nueva arquitectura más simple, cruzaron un nuevo estado del arte en los principales conjuntos de datos de traducción.
Algo salvaje dado que su contribución central fue eliminar un componente clave de los modelos existentes y simplificar la arquitectura. Esto podría haber sido fácilmente solo un estudio de ablación en el artículo anterior, que introdujo la atención.
En cuanto a por qué esto podría haber ocurrido, uno puede imaginarlos frustrados con las dificultades que estaban causando las capas recurrentes, mientras que las capas de atención habrían sido realmente fáciles de entrenar. Esto podría haberlos llevado a preguntarse "¿si las capas recurrentes son tan problemáticas, por qué no eliminarlas?".
Con esta nueva arquitectura de solo atención, cruzaron el estado del arte en tareas de traducción de idiomas.
Más Allá de la Traducción
Aquí es donde OpenAI entra por primera vez en esta escena. A diferencia de otros laboratorios de investigación dentro de grandes empresas, pueden perseguir un mandato de "inteligencia general" en tareas de idiomas.
Pre-entrenamiento Generativo
En este artículo, presentaron el primer modelo GPT (Generalized Pre-Trained), GPT-1. Se suponía que el modelo era un conjunto de herramientas de propósito general capaz de realizar cualquier tarea de idioma. Tenía alrededor de 117 millones de parámetros.
- 2018: "Improving Language Understanding by Generative Pre-Training"
A diferencia de Vaswani et.al. del artículo anterior que se centraron en la traducción de idiomas, los autores de este artículo estaban interesados en construir un agente general capaz de sobresalir en múltiples tareas de idiomas. Esto tiene sentido para una organización de investigación como OpenAI en ese momento. La gran idea en este artículo es: no entrenar modelos para cada tarea desde cero.
Primero, entrena un modelo que generalmente sea bueno en el idioma de manera no supervisada en un gran corpus de texto.
Tenga en cuenta que este paso, el entrenamiento de un modelo general en un gran corpus de texto, fue objeto de una demanda de derechos de autor histórica (entre Anthropic, una de las empresas que entrena estos modelos y los editores de los libros en los que entrenó sus modelos), extremadamente consecuente en el futuro de tales modelos de IA.
El 23 de junio de 2025, el juez de distrito de EE. UU. William Alsup dictaminó que el uso por parte de Anthropic de libros con derechos de autor adquiridos legalmente (comprados y escaneados) para entrenar sus modelos de IA constituía un "uso justo" según la ley de derechos de autor de EE. UU. Describió el entrenamiento como "esencialmente transformador", comparándolo con cómo "cualquier lector que aspire a ser escritor" aprende y sintetiza contenido en sus propias palabras.
Luego, ajústelo aún más de manera supervisada en datos específicos de la tarea. Dado que el transformador es un modelo de secuencia a secuencia, todo lo que tenemos que hacer es enmarcar la tarea como un problema de secuencia a secuencia. Por ejemplo, si la tarea es el análisis de sentimientos, la entrada se convierte en la oración de origen cuyo sentimiento debe descifrarse. La salida objetivo se convierte en "POSITIVO" o "NEGATIVO".
Esto es similar a cómo un humano primero aprende habilidades generales de idioma y luego se especializa en un campo específico como el derecho.
Tome a Bobby Fisher, el gran maestro de ajedrez que primero aprendió ruso (ya que todos los buenos libros de ajedrez de la época estaban en ese idioma) y luego los leyó para mejorar en el ajedrez.
Aprendizaje con Pocos Ejemplos
- 2020, Language models are few shot learners
Este es el documento que introdujo por primera vez el famoso modelo, GPT-3. Unos años después de esto, en noviembre de 2022, OpenAI lanzó ChatGPT al público. El modelo subyacente al chatbot era el mismo que el de este artículo. Este modelo tenía 175 mil millones de parámetros.
Los autores pasan mucho tiempo maravillándose de lo buenos que son los humanos en general para aprender a realizar nuevas tareas de idioma con solo unos pocos ejemplos ilustrativos. Luego sueñan con que los modelos de IA muestren el mismo tipo de generalización sin tener que volver a entrenar el modelo para cada tarea individual. Argumentan que escalar los modelos a más y más parámetros puede llevarnos hacia este objetivo.
Citando: "En los últimos años, la capacidad de los modelos de idioma transformador ha aumentado sustancialmente, de 100 millones de parámetros, a 300 millones de parámetros, a 1.5 mil millones de parámetros, a 8 mil millones de parámetros, 11 mil millones de parámetros y finalmente 17 mil millones de parámetros. Cada aumento ha traído mejoras en la síntesis de texto y/o en las tareas de PNL posteriores, y hay evidencia que sugiere que la pérdida logarítmica, que se correlaciona bien con muchas tareas posteriores, sigue una tendencia suave de mejora con la escala. Dado que el aprendizaje en contexto implica absorber muchas habilidades y tareas dentro de los parámetros del modelo, es plausible que las habilidades de aprendizaje en contexto puedan mostrar ganancias igualmente fuertes con la escala".
La idea es dar al modelo ejemplos demostrativos en el momento de la inferencia en lugar de usarlos para entrenar sus parámetros. Si no se proporcionan tales ejemplos en contexto, se denomina "cero disparo". Si se proporciona un ejemplo, "un disparo" y si se proporcionan algunos, "pocos disparos".
El gráfico a continuación, tomado del documento, muestra no solo cómo mejora el rendimiento a medida que aumenta el número de parámetros del modelo, sino también cómo los modelos pueden aprovechar los uno o pocos ejemplos que se les muestran. El rendimiento de los casos de uno y pocos disparos comienza a separarse del cero disparo a medida que aumenta el número de parámetros.
Un experimento fascinante fue evaluar el rendimiento de los modelos en tareas aritméticas simples como la suma y resta de dos dígitos. Citando: "En la suma y la resta, GPT-3 muestra una gran competencia cuando el número de dígitos es pequeño, logrando una precisión del 100% en la suma de 2 dígitos, el 98.9% en la resta de 2 dígitos, el 80.2% en la suma de 3 dígitos y el 94.2% en la resta de 3 dígitos.". Los modelos con incluso 13 mil millones de parámetros fallaron miserablemente incluso en la suma de dos dígitos.
Y este párrafo debe haber hecho que los autores se sintieran como padres orgullosos:
"Para verificar si el modelo simplemente está memorizando problemas aritméticos específicos, tomamos los problemas aritméticos de 3 dígitos en nuestro conjunto de pruebas y los buscamos en nuestros datos de entrenamiento tanto en las formas " + =" como " más ". De 2,000 problemas de suma, encontramos solo 17 coincidencias (0.8%) y de 2,000 problemas de resta, encontramos solo 2 coincidencias (0.1%), lo que sugiere que solo una fracción trivial de las respuestas correctas podría haber sido memorizada. Además, la inspección de las respuestas incorrectas revela que el modelo a menudo comete errores como no llevar un "1", lo que sugiere que en realidad está intentando realizar el cálculo relevante en lugar de memorizar una tabla.".
Mirando hacia el Futuro y Conclusión
Estos fueron algunos de los documentos clave que llevaron al modelo GPT-3 que se lanzó al público como un chatbot (ChatGPT) a fines de 2022. Con suerte, proporcionan una visión de la evolución iterativa que condujo a la ruptura de la prueba de Turing.
Ha habido muchos documentos notables desde entonces que han eliminado las limitaciones y mejorado aún más las capacidades de estos modelos.
Primero, hubo una necesidad de alinear las respuestas de los modelos con las preferencias humanas. Para evitar que los modelos sean tóxicos, inútiles, etc. Aquí es donde entró en juego el concepto de RLHF (Aprendizaje por Refuerzo a partir de la Retroalimentación Humana). Utilizó una técnica utilizada anteriormente para enseñar a los modelos a jugar videojuegos, adaptada para ajustar los parámetros de los modelos de idioma. El documento de OpenAI se tituló: "Entrenar modelos de idioma para seguir instrucciones" y salió en noviembre de 2022.
Si fuiste uno de los primeros en adoptar estos modelos, es posible que recuerdes que si le preguntabas sobre noticias actuales, decía: "Soy un modelo de idioma entrenado en una instantánea de Internet anterior a 2022" o similar y no podía responder preguntas sobre eventos desde esa instantánea. Además, como vimos en la sección III-B, estos modelos no lograrían puntuaciones perfectas en aritmética simple. ¿Por qué confiar en el proceso generativo para este tipo de cosas cuando tenemos herramientas especializadas? En lugar de simplemente decir que no fue entrenado en asuntos actuales, el modelo podría simplemente llamar a una API de noticias y recuperar la información que necesitaba. Del mismo modo, en lugar de tratar de hacer aritmética a través de su proceso generativo, podría simplemente llamar a una API de calculadora. Aquí es donde el documento de toolformers (https://arxiv.org/abs/2302.04761) del laboratorio de IA de Meta (FAIR en ese momento) enseñó a estos modelos a usar herramientas como API de noticias y calculadoras.
Este artículo cubrió los avances hasta el lanzamiento de ChatGPT, que puede denominarse justamente un momento crucial en los modelos de IA. A continuación, en la serie, cubriré los avances de seguimiento como los mencionados en esta sección que han seguido superando los límites. Manténganse al tanto.
Referencias
- A Brief History of GPT Through Papers - https://towardsdatascience.com/a-brief-history-of-gpt-through-papers/