Un allenamento disastroso: le ragioni per cui le IA si sbagliano usando una sovrabbondanza di dati

I ricercatori delle rinomate università americane mettono in luce un fenomeno preoccupante riguardo all’addestramento delle intelligenze artificiali (IA): l’overfitting, che spesso risulta da una quantità eccessiva di dati. Questo studio rivela che più dati non significano necessariamente migliori prestazioni. Al contrario, un addestramento eccessivo può portare a risultati deludenti, addirittura a un deterioramento delle capacità di un modello. In questo articolo, esploreremo le ragioni per cui un’eccessiva abbondanza di dati può portare a errori e malfunzionamenti nel funzionamento delle IA.

Table des matières

Il concetto di overfitting

L’overfitting si verifica quando il modello IA viene addestrato su un volume di dati troppo elevato, superando una certa soglia ottimale. Sebbene si possa pensare che una maggiore quantità di dati permetta di addestrare meglio il modello, le ricerche mostrano che questo può avere l’effetto opposto. Infatti, un overfitting può rendere il modello troppo sensibile alle fluttuazioni dei dati, portando a errori amplificati.

Un’aumentata sensibilità ai dati

Gli scienziati hanno osservato che un addestramento eccessivo genera una sensibilità progressiva. Man mano che il numero di token, che sono porzioni di dati, aumenta, il modello diventa sempre più vulnerabile. Questa fragilità aumenta il rischio di errori, particolarmente quando vengono applicati aggiustamenti o vengono integrati elementi esterni. I test hanno rivelato che i modelli che hanno ricevuto meno dati di addestramento spesso performance meglio di quelli che sono stati overfittati.

Le performance dei modelli IA e il punto di inflessione

Il punto di inflessione è un termine che designa quel momento in cui l’addestramento non produce più benefici, ma al contrario, inizia a danneggiare la qualità del modello. Questa situazione viene spesso raggiunta oltre 2,5 trilioni di token per alcuni modelli di dimensioni ridotte, come l’OLMo-1B. Quando un modello raggiunge questa fase critica, i guadagni realizzati attraverso l’addestramento vengono annullati da un’instabilità interna che si manifesta con un deterioramento delle performance.

Uno studio rivelatore

Uno studio condotto da scienziati della Carnegie Mellon, Stanford, Harvard e Princeton ha messo in evidenza l’incredibile scoperta che un modello addestrato con meno dati potesse superare il suo omologo overfittato in test specifici come AlpacaEval e ARC. Questo risultato illustra l’idea che la qualità dei dati e la loro pertinenza rispetto agli obiettivi di apprendimento siano essenziali, piuttosto che semplicemente la quantità di dati utilizzati.

Le conseguenze dell’overfitting

Gli effetti dell’overfitting sono diversi e devastanti per le performance delle intelligenze artificiali. I ricercatori avvertono che l’errore di interpretazione dei dati e l’inadeguatezza dei compiti di pre-addestramento possono favorire un overfitting catastrofico. I modelli diventano incapaci di generalizzare gli apprendimenti sui nuovi dati, limitando così la loro utilità in situazioni reali.

Riflessione sull’addestramento delle IA

Gli scienziati non chiedono un abbandono totale del pre-addestramento, ma sottolineano l’importanza di ripensare la strategia di addestramento. Raccomandano un’attenzione particolare alla dimensione dei modelli e alla definizione degli obiettivi di apprendimento. Piuttosto che una corsa alla quantità, suggeriscono di ottimizzare la qualità dell’addestramento esaminando attentamente l’intero pipeline di apprendimento, il che permetterebbe di evitare le trappole dell’overfitting.