Les Ingénieurs d'Apple : Défis et Limites de l'Intelligence Artificielle

Apple 엔지니어들이 수행한 최근 연구는 특히 ChatGPT와 같은 생성적 AI 모델의 결함을 조명합니다. 이러한 시스템은 종종 문제 해결의 전문가로 인식되지만, 테스트 결과는 수학적 문제에 직면했을 때 그들이 진정한 논리적 추론을 보여줄 수 없음을 나타내며, 이는 그들의 신뢰성과 진정한 논리적 이해에 대한 의문을 제기합니다.

Table des matières

애플의 생성적 AI 한계 연구

Apple의 여섯 명의 엔지니어 팀이 수행한 연구는 수학 분야에서 대형 언어 모델의 능력을 조사했습니다. 연구자들은 이 인공지능을 공통된 수학 문제에서 테스트하기로 결정했으며, 이 경우 AI는 아무런 어려움 없이 문제를 해결해야 할 것으로 보였습니다. 그러나 이러한 시스템이 특정 상황에서 능력을 발휘함에도 불구하고, 결과는 중요한 우려 사항을 드러냈습니다: 학습된 패턴을 따르지 않는 맥락 변수를 처리하는 능력이 부족하다는 것입니다.

체계적인 테스트와 예상치 못한 결과

테스트 중, AI는 “올리버가 금요일에 44개의 키위를 따고, 토요일에 58개의 키위를 따며, 일요일에는 금요일의 두 배를 따는 경우, 그는 총 몇 개의 키위를 따게 되는가?”와 같은 질문에 올바르게 답변하면서 처음에는 성능이 좋았습니다. 그러나 “키위 중 5개는 조금 작은 크기였다”와 같은 외부 요소가 추가되자 모델은 곧 계산에서 오류를 범하며 약점을 보였습니다.

논리적 이해의 부족

이 결과에서 특히 우려스러운 점은 AI가 이러한 새로운 정보를 수학 작업의 단서로 해석하는 경향이 있다는 것입니다. 질문에 대한 관련성이 없는 경우에도 말입니다. 이로 인해 AI는 서술을 연산의 집합으로 “읽기”보다는 맥락과 요청의 다양한 요소 간의 논리적 관계를 이해하지 못하게 됩니다. 이 현상은 AI 생성적 모델의 추론 취약성을 설명하며, 이는 진정한 이해보다는 기억에 기반해 구성된 것처럼 보입니다.

이 결과의 함의

연구는 언어 모델 자체의 구조에서 중요하고 치명적인 결함을 강조합니다. 이 모델들은 주로 심층적 인지보다는 통계적 학습에 기반하고 있습니다. 엔지니어들은 이러한 테스트에 제출될 때 AI의 정확도가 최고 17.5%에서 65.7%까지 감소했음을 관찰했습니다. 또한 문제의 매개변수를 간단히 변경하는 것, 예를 들어 이름을 바꾸는 것만으로도 성공률이 더욱 낮아져 다양한 상황에 적응하는 능력에 의문을 제기합니다.

연구 결론 및 전망

이 연구의 결과는 인공지능에 대한 일반적으로 낙관적인 시각에 중요한 도전을 제기합니다. 저자들은 수학 문제 내에서의 사소한 방해가 AI가 정보를 인식하고 비판적으로 평가할 수 있는 능력의 근본적인 한계를 드러낸다고 결론지었습니다. 이러한 결론은 합리적인 사고와 의사 결정을 보장해야 하는 시스템에 인공지능을 통합할 경우의 미래를 재고할 필요성을 제기합니다.

애플의 생성적 AI 한계 연구

체계적인 테스트와 예상치 못한 결과

논리적 이해의 부족

이 결과의 함의

연구 결론 및 전망

À découvrir...