Le recenti ricerche condotte da ingegneri di Apple mettono in luce le falle dei modelli di intelligenza artificiale, in particolare quelli di tipo IA generativa, come ChatGPT. Sebbene questi sistemi siano spesso percepiti come esperti nella risoluzione dei problemi, i test mostrano che non sono in grado di dimostrare un autentico ragionamento logico quando si trovano di fronte a semplici problemi matematici, il che solleva interrogativi sulla loro affidabilità e sulla loro comprensione realmente logica.
La ricerca di Apple sui limiti delle IA generative
Uno studio condotto da un team di sei ingegneri di Apple ha esaminato le capacità dei grandi modelli di linguaggio nel campo della matematica. I ricercatori hanno scelto di testare queste intelligenze su problemi matematici comuni, dove apparentemente, l’IA non dovrebbe incontrare difficoltà. Tuttavia, nonostante le competenze di questi sistemi in alcune situazioni, i risultati hanno rivelato una preoccupazione significativa: la loro incapacità di gestire variabili contestuali che non seguono uno schema appreso.
Test sistematici e risultati inaspettati
Durante i test, le IA si sono inizialmente dimostrate performanti rispondendo correttamente a domande come « Olivier raccoglie 44 kiwi il venerdì, 58 kiwi il sabato, e la domenica ne raccoglie il doppio rispetto al venerdì. Quanti kiwi ha raccolto? ». Tuttavia, quando elementi aggiuntivi, apparentemente insignificanti, venivano aggiunti all’enunciato, come « 5 dei kiwi erano un po’ più piccoli », i modelli hanno rapidamente mostrato segni di debolezza, commettendo errori nei loro calcoli.
Una mancanza di comprensione logica
Ciò che è particolarmente preoccupante in questi risultati è che le IA tendono a interpretare queste nuove informazioni come indizi per operazioni matematiche, anche se queste non erano pertinenti alla domanda posta. Così, esse « leggono » l’enunciato come un insieme di operazioni piuttosto che comprendere il contesto e le relazioni logiche tra i diversi elementi della richiesta. Questo fenomeno illustra la fragilità del ragionamento delle IA generative, che sembra essere costruito più sulla memorizzazione che su una vera comprensione.
Le implicazioni di questi risultati
La ricerca sottolinea una falla critica nell’architettura stessa dei modelli di linguaggio, che sono principalmente basati sull’apprendimento statistico piuttosto che su una cognizione profonda. Gli ingegneri hanno osservato una diminuzione della precisione delle IA fino al 17,5% per le migliori e al 65,7% per i modelli meno performanti quando erano sottoposti a questi test. Inoltre, semplici cambiamenti nei parametri dei problemi, come la sostituzione di un nome proprio, hanno ulteriormente ridotto il loro tasso di successo, rimettendo in discussione la loro capacità di adattarsi a situazioni diverse.
Conclusione dello studio e prospettive
I risultati di questo studio pongono una sfida importante alla visione generalmente ottimista dell’intelligenza artificiale. Gli autori concludono affermando che le perturbazioni minori all’interno dei problemi matematici espongono una limitazione fondamentale delle IA nel riconoscere e valutare in modo critico le informazioni. Queste conclusioni invitano a riflettere sul futuro dell’intelligenza artificiale, in particolare per quanto riguarda la sua integrazione in sistemi dove il ragionamento logico e la presa di decisione sono essenziali.







