Révolutionner ChatGPT : Un cœur réinventé en 243 lignes, sans bibliothèque

Am 11. Februar 2026 hat Andrej Karpathy, eine ikonische Figur der künstlichen Intelligenz, eine erstaunliche Leistung vollbracht: Er hat das Herz eines GPT-Modells in nur 243 Zeilen Python nachgebaut, ohne die üblichen Bibliotheken zu verwenden. Durch dieses Projekt zeigt er die zugrunde liegende Einfachheit moderner Architekturen der künstlichen Intelligenz und bietet eine aufschlussreiche Perspektive auf die grundlegenden Prinzipien, die diese leiten.

Table des matières

Ein pädagogischer und einfacher Ansatz

Andrej Karpathy hat sich zum Ziel gesetzt, die Struktur eines Transformers, der Architektur, auf der die GPT basieren, zu enthüllen, indem er diese Komplexität auf das Wesentliche reduziert. Indem er nur Python verwendet, gelingt es ihm zu zeigen, dass die Basis dieser Modelle in einer erstaunlich prägnanten Datei enthalten sein kann. Obwohl sein Modell mit etwa 4.000 Parametern nicht mit ChatGPT in Bezug auf die Leistung konkurrieren kann, verkörpert es einen Ansatz, der die Vorstellung in Frage stellt, dass diese Systeme unbedingt komplexe Black Boxes sein müssen. Dies lädt Entwickler und Enthusiasten dazu ein, ihr Verständnis der Technologie zu überdenken.

Der außergewöhnliche Werdegang von Andrej Karpathy

Mit einer Karriere, die ihn seit 2015 zu OpenAI und dann zum Leiter der KI bei Tesla geführt hat, ist Andrej Karpathy alles andere als ein gewöhnlicher Entwickler. Er ist bekannt für seine Fähigkeit, künstliche Intelligenz zu vereinfachen und zu den Grundlagen zurückzukehren. Im Gegensatz zu den meisten Ingenieuren, die auf fortschrittliche Bibliotheken wie PyTorch oder TensorFlow zurückgreifen, zieht er es vor, seine Lösungen von Grund auf zu codieren, was seinen Wunsch zeigt, zu unterrichten und sein Wissen mit anderen zu teilen.

Die Mechanik des Modells in 243 Zeilen

Das Projekt beginnt mit einer einfachen Textdatei, names.txt, die etwa 32.000 Vornamen enthält und als einzige Datenquelle für das Modell dient. Anstatt die Bedeutung der Wörter zu analysieren, liegt der Fokus auf der Fähigkeit, den nächsten Buchstaben basierend auf den vorhergehenden vorherzusagen. Jeder Buchstabe ist einer Zahl zugeordnet, wodurch der Text in eine Folge von numerischen Werten verwandelt wird.
Diese Umwandlung ermöglicht es dem Modell, nur mit Zahlen zu arbeiten, was für die mathematischen Berechnungen, die es durchführen muss, unerlässlich ist.

Der Lernmechanismus des Modells

Im Kern seines Modells steht der Mechanismus der Self-Attention, der es ihm ermöglicht, die Bedeutung der vorhergehenden Buchstaben zu gewichten. Implementiert durch die Formel der Scaled Dot-Product Attention, erstellt das Modell drei Matrizen, um zu bestimmen, welche Buchstaben die nächsten beeinflussen sollten. Indem er die Einschränkung auferlegt, nur auf bereits verarbeitete Buchstaben zu achten, stellt Karpathy sicher, dass seine Vorhersagen auf früheren Beobachtungen basieren, was grundlegend für das Funktionieren aller modernen Sprachsysteme ist.

Fehlerlernen: Eine automatisierte Herausforderung

Wenn das Modell einen Fehler macht, wird eine Maßzahl für den Fehler, genannt loss, berechnet. Je niedriger die Wahrscheinlichkeit, die dem richtigen Buchstaben zugeschrieben wird, desto höher ist die Messgröße. Karpathy verwendet nicht die üblichen Automatisierungstools und entscheidet sich, seine eigene Autograd-Engine neu zu implementieren. Dieses Bestreben, zu den Grundlagen zurückzukehren und jede mathematische Operation nachzuvollziehen, ermöglicht es ihm, die Schönheit der Differentialrechnung zu lehren und sogar zu feiern.

Innovation und Schaffung neuer Vornamen

Nach einer Lernphase an den Vornamen seiner Liste generiert das Modell aus 243 Zeilen originale Kreationen. Durch die Anpassung der Parameter zur Minimierung des Fehlers produziert es neuartige Vornamen, die, obwohl sie zufällig generiert werden, plausibel und realistisch erscheinen. Dies zeigt nicht nur die Effizienz des Algorithmus, sondern auch die Stärke der mathematischen Prinzipien, die im Bereich der künstlichen Intelligenz angewendet werden. Dieser kreative und didaktische Ansatz regt zum Nachdenken über das Wesen der modernen KI-Systeme an.

Um weitere Neuigkeiten über Technologie und künstliche Intelligenz zu entdecken, zögern Sie nicht, parallele Projekte zu konsultieren, wie CNews und LCI, oder auch wie KI sich von moderner Musik inspirieren lässt mit Kreationen wie Papaoutai. Erkunden Sie auch Überlegungen zur Zukunft der Blockchain und KI in der Finanzen, wie in diesem Artikel zu finden ist über Finanzen 2.0.