Les Ingénieurs d'Apple : Défis et Limites de l'Intelligence Artificielle

Die kürzlich von Ingenieuren bei Apple durchgeführten Forschungen werfen ein Licht auf die Schwächen von KI-Modellen, insbesondere von generativer KI, wie ChatGPT. Obwohl diese Systeme oft als Experten bei der Problemlösung angesehen werden, zeigen Tests, dass sie nicht in der Lage sind, authentisches logisches Denken zu demonstrieren, wenn sie mit einfachen mathematischen Problemen konfrontiert werden, was Fragen zu ihrer Zuverlässigkeit und ihrem tatsächlichen Verständnis aufwirft.

Table des matières

Apples Forschung zu den Grenzen der generativen KIs

Eine Untersuchung, die von einem Team aus sechs Ingenieuren von Apple durchgeführt wurde, untersuchte die Fähigkeiten großer Sprachmodelle im Bereich der Mathematik. Die Forscher wählten es aus, diese Intelligenzen anhand gängiger mathematischer Probleme zu testen, bei denen die KI scheinbar keine Schwierigkeiten haben sollte. Dennoch offenbarten die Ergebnisse eine große Besorgnis: ihre Unfähigkeit, mit kontextuellen Variablen umzugehen, die nicht einem erlernten Muster folgen.

Systematische Tests und unerwartete Ergebnisse

Während der Tests zeigten die KIs zunächst gute Leistungen, indem sie korrekt auf Fragen wie „Olivier pflückt am Freitag 44 Kiwis, am Samstag 58 Kiwis, und am Sonntag pflückt er doppelt so viel wie am Freitag. Wie viele Kiwis hat er insgesamt gepflückt?“ antworteten. Als jedoch zusätzliche, scheinbar unbedeutende Elemente zur Frage hinzugefügt wurden, wie „5 der Kiwis waren etwas kleiner“, zeigten die Modelle schnell Anzeichen von Schwäche und machten Fehler in ihren Berechnungen.

Ein Mangel an logischem Verständnis

Besonders besorgniserregend an diesen Ergebnissen ist, dass die KIs dazu neigen, diese neuen Informationen als Hinweise für mathematische Operationen zu interpretieren, auch wenn diese für die gestellte Frage nicht relevant sind. So „lesen“ sie die Frage als eine Reihe von Operationen, anstatt den Kontext und die logischen Beziehungen zwischen den verschiedenen Elementen der Anfrage zu verstehen. Dieses Phänomen veranschaulicht die Fragilität des Denkprozesses der generativen KIs, der eher auf Memorierung als auf echtem Verständnis zu basieren scheint.

Die Implikationen dieser Ergebnisse

Die Forschung hebt eine kritische Schwäche in der Architektur der Sprachmodelle hervor, die hauptsächlich auf statistischem Lernen basieren, anstatt auf tiefem kognitiven Verständnis. Die Ingenieure beobachteten einen Rückgang der Genauigkeit der KIs von bis zu 17,5 % für die besten Modelle und 65,7 % für die am schlechtesten abschneidenden Modelle, wenn sie diesen Tests unterzogen wurden. Darüber hinaus führten einfache Änderungen in den Parametern der Probleme, wie der Ersatz eines Vornamens, dazu, dass ihre Erfolgsquote weiter sank, was ihre Fähigkeit in Frage stellt, sich an verschiedene Situationen anzupassen.

Schlussfolgerungen der Studie und Ausblick

Die Ergebnisse dieser Studie stellen eine wichtige Herausforderung für die generell optimistische Sicht auf künstliche Intelligenz dar. Die Autoren schließen mit der Feststellung, dass geringe Störungen innerhalb der mathematischen Probleme eine grundlegende Einschränkung der KIs aufzeigen, Informationen zu erkennen und kritisch zu bewerten. Diese Schlussfolgerungen laden dazu ein, über die Zukunft der künstlichen Intelligenz nachzudenken, insbesondere hinsichtlich ihrer Integration in Systeme, in denen logisches Denken und Entscheidungsfindung entscheidend sind.