Révolutionner ChatGPT : Un cœur réinventé en 243 lignes, sans bibliothèque

El 11 de febrero de 2026, Andrej Karpathy, figura emblemática de la inteligencia artificial, logró una hazaña sorprendente: recrear el corazón de un modelo GPT en solo 243 líneas de Python, sin recurrir a las bibliotecas habituales. A través de este proyecto, demuestra la simplicidad subyacente de las arquitecturas de inteligencia artificial modernas y ofrece una perspectiva iluminadora sobre los principios fundamentales que las rigen.

Table des matières

Un enfoque pedagógico y simplista

Andrej Karpathy se ha dado a la misión de revelar la estructura de un Transformer, la arquitectura sobre la que se basan los GPT, reduciendo esta complejidad a lo esencial. Al utilizar solo Python, logra demostrar que la base de estos modelos puede estar contenida en un archivo sorprendentemente conciso. Aunque su modelo, de aproximadamente 4,000 parámetros, no puede competir con ChatGPT en términos de rendimiento, encarna un enfoque que cuestiona la idea de que estos sistemas deben ser necesariamente cajas negras complejas. Esto invita a los desarrolladores y entusiastas a replantearse su comprensión de la tecnología.

El recorrido excepcional de Andrej Karpathy

Con una carrera que lo ha visto unirse a OpenAI desde 2015 y convertirse en director de IA en Tesla, Andrej Karpathy es todo menos un desarrollador ordinario. Es conocido por su capacidad para simplificar la inteligencia artificial y volver a los fundamentos. A diferencia de la mayoría de los ingenieros que se basan en bibliotecas avanzadas como PyTorch o TensorFlow, prefiere codificar sus soluciones desde cero, lo que demuestra una voluntad de enseñar y compartir su conocimiento con los demás.

La mecánica del modelo en 243 líneas

El proyecto comienza con un simple archivo de texto, names.txt, que compila aproximadamente 32,000 nombres, los cuales sirven como fuente única de datos para el modelo. En lugar de analizar el significado de las palabras, el objetivo radica en la capacidad de predecir la siguiente letra basándose en las anteriores. Cada letra se asocia con un número, transformando así el texto en una secuencia de valores numéricos.
Esta conversión permite al modelo operar únicamente con números, lo cual es esencial para los tratamientos matemáticos que debe realizar.

El mecanismo de aprendizaje del modelo

En el corazón de su modelo reside el mecanismo de self-attention, que le permite ponderar la importancia de las letras anteriores. Implementado gracias a la fórmula del Scaled Dot-Product Attention, el modelo crea tres matrices para determinar qué letras deben influir en las siguientes. Al imponer la restricción de mirar solo las letras ya procesadas, Karpathy se asegura de que sus predicciones se basen en observaciones anteriores, lo cual es fundamental en el funcionamiento de todos los sistemas de lenguaje modernos.

Aprendizaje por error: un desafío automatizado

Cuando el modelo comete un error, se calcula una medida del error, denominada loss. Cuanto menor es la probabilidad asignada a la letra correcta, mayor es la medida. Karpathy no utiliza las herramientas de automatización habituales y opta por reimplementar su propio motor de autograd. Esta determinación de volver a los fundamentos, siguiendo cada operación matemática, le permite enseñar, e incluso celebrar, la belleza del cálculo diferencial.

Innovación y creación de nuevos nombres

Después de un tiempo de aprendizaje con los nombres de su lista, el modelo de 243 líneas genera creaciones originales. Al utilizar la lógica de ajuste de parámetros para minimizar el error, produce nombres inéditos que, aunque generados aleatoriamente, parecen plausibles y realistas. Esto demuestra no solo la eficacia del algoritmo, sino también la potencia de los principios matemáticos aplicados al campo de la inteligencia artificial. Este enfoque creativo y didáctico invita a reflexionar sobre la naturaleza misma de los sistemas de IA modernos.

Para descubrir más noticias sobre tecnología e inteligencia artificial, no dudes en consultar proyectos paralelos, como CNews y LCI, o la manera en que la IA se inspira en la música moderna con creaciones como Papaoutai. Explora también reflexiones sobre el futuro de la blockchain y la IA en las finanzas, como se presenta en este artículo sobre la finanza 2.0.