Un surentraînement désastreux : les raisons pour lesquelles les IA se trompent en utilisant une surabondance de données

Les chercheurs des universités américaines de renom mettent en lumière un phénomène inquiétant concernant l’entraînement des intelligences artificielles (IA) : le surentraînement, qui résulte souvent d’une quantité excessive de données. Cette étude révèle que plus de données ne signifient pas nécessairement de meilleures performances. Au contraire, un entraînement excessif peut conduire à des résultats décevants, voire à une détérioration des capacités d’un modèle. Dans cet article, nous explorerons les raisons pour lesquelles une surabondance de données peut entraîner des erreurs et des dysfonctionnements dans le fonctionnement des IA.

Table des matières

Le concept du surentraînement

Le surentraînement se produit lorsque le modèle d’IA est entraîné sur un volume de données trop important, allant au-delà d’un certain seuil optimal. Bien que l’on puisse penser qu’une plus grande quantité de données permet de mieux entraîner le modèle, les recherches montrent que cela peut avoir l’effet inverse. En effet, un surentraînement peut rendre le modèle trop sensible aux fluctuations des données, conduisant à des erreurs renforcées.

Une sensibilité accrue aux données

Les scientifiques ont observé qu’un entraînement excessif engendrait une sensibilité progressive. À mesure que le nombre de tokens, qui sont des portions de données, augmente, le modèle devient de plus en plus vulnérable. Cette fragilité augmente le risque d’erreurs, particulièrement lorsque des ajustements sont appliqués ou que des éléments extérieurs sont intégrés. Les tests ont révélé que les modèles ayant reçu moins de données d’entraînement performent souvent mieux que ceux ayant été surentraînés.

Les performances des modèles d’IA et le point d’inflexion

Le point d’inflexion est un terme désignant ce moment où l’entraînement ne produit plus de bénéfices, mais au contraire, commence à nuire à la qualité du modèle. Cette situation est souvent atteinte au-delà de 2,5 billions de tokens pour certains modèles de taille réduite, comme l’OLMo-1B. Lorsqu’un modèle atteint ce stade critique, les gains réalisés par l’entraînement sont annulés par une instabilité interne qui se manifeste par une détérioration des performances.

Une étude révélatrice

Une étude menée par des scientifiques de Carnegie Mellon, Stanford, Harvard et Princeton a mis en évidence l’étonnant constat selon lequel un modèle entraîné avec moins de données pouvait surpasser son homologue surentraîné dans des tests spécifiques tels qu’AlpacaEval et ARC. Ce résultat illustre l’idée que la qualité des données et leur pertinence par rapport aux objectifs d’apprentissage sont essentielles, plutôt que simplement la quantité de données utilisées.

Les conséquences du surentraînement

Les effets du surentraînement sont divers et dévastateurs pour les performances des intelligences artificielles. Les chercheurs avertissent que l’erreur d’interprétation des données et l’inadéquation des tâches de pré-entraînement peuvent favoriser un surentraînement catastrophique. Les modèles deviennent incapables de généraliser les apprentissages aux nouvelles données, limitant ainsi leur utilité dans des situations réelles.

Réflexion sur l’entraînement des IA

Les scientifiques ne plaident pas pour un abandon total du pré-entraînement, mais insistent sur l’importance de repenser la stratégie d’entraînement. Ils recommandent une attention particulière au dimensionnement des modèles et à la définition des objectifs d’apprentissage. Plutôt qu’une course à la quantité, ils suggèrent d’optimiser la qualité de l’entraînement en examinant soigneusement l’ensemble du pipeline d’apprentissage, ce qui permettrait d’éviter les pièges du surentraînement.