Les récentes recherches effectuées par des ingénieurs d’Apple mettent en lumière les failles des modèles d’intelligence artificielle, notamment ceux de type IA générative, tels que ChatGPT. Bien que ces systèmes soient souvent perçus comme des experts en résolution de problèmes, les tests montrent qu’ils sont incapables de faire preuve d’authentique raisonnement logique lorsqu’ils sont confrontés à des problèmes mathématiques simples, ce qui soulève des questions quant à leur fiabilité et à leur compréhension réellement logique.
La recherche d’Apple sur les limites des IA génératives
Une étude menée par une équipe de six ingénieurs d’Apple a examiné les capacités des grands modèles de langage dans le domaine des mathématiques. Les chercheurs ont choisi de tester ces intelligences sur des problèmes mathématiques communs, où en apparence, l’IA ne devrait rencontrer aucune difficulté. Cependant, malgré les compétences de ces systèmes dans certaines situations, les résultats ont révélé une préoccupation majeure : leur incapacité à gérer des variables contextuelles qui ne suivent pas un schéma appris.
Tests systématiques et résultats inattendus
Lors des tests, les IA se sont initialement montrées performantes en répondant correctement à des questions telles que « Olivier cueille 44 kiwis le vendredi, 58 kiwis le samedi, et le dimanche il en cueille deux fois plus que le vendredi. Combien de kiwis a-t-il ramassés ? ». Cependant, lorsque des éléments additionnels, apparemment insignifiants, étaient ajoutés à l’énoncé, comme « 5 des kiwis étaient un peu plus petits », les modèles ont rapidement montré des signes de faiblesse, en commettant des erreurs dans leurs calculs.
Un manque de compréhension logique
Ce qui est particulièrement inquiet dans ces résultats, c’est que les IA ont tendance à interpréter ces nouvelles informations comme des indices pour des opérations mathématiques, même si celles-ci n’étaient pas pertinentes pour la question posée. Ainsi, elles « lisent » l’énoncé comme un ensemble d’opérations plutôt que de comprendre le contexte et les relations logiques entre les différents éléments de la requête. Ce phénomène illustre la fragilité du raisonnement des IA génératives, qui semble davantage construit sur la mémorisation que sur une véritable compréhension.
Les implications de ces résultats
La recherche souligne une faille critique dans l’architecture même des modèles de langage, qui sont principalement basés sur l’apprentissage statistique plutôt que sur une cognition profonde. Les ingénieurs ont observé une diminution de la précision des IA allant jusqu’à 17,5 % pour les meilleures et 65,7 % pour les modèles les moins performants lorsqu’ils étaient soumis à ces tests. De plus, des simples changements dans les paramètres des problèmes, comme le remplacement d’un prénom, ont encore réduit leur taux de succès, remettant en question leur capacité à s’adapter à des situations variées.
Conclusion de l’étude et perspectives
Les résultats de cette étude posent un défi important à la vision généralement optimiste de l’intelligence artificielle. Les auteurs concluent en affirmant que les perturbations mineures au sein des problèmes mathématiques exposent une limitation fondamentale des IA à reconnaître et à évaluer de manière critique les informations. Ces conclusions invitent à réfléchir sur l’avenir de l’intelligence artificielle, notamment en ce qui concerne son intégration dans des systèmes où le raisonnement logique et la prise de décision sont essentiels.







