CroissantLLM, le LLM franco-anglais

L’avènement de CroissantLLM par le laboratoire MICS de CentraleSupélec, en collaboration avec plusieurs institutions académiques, marque un tournant significatif dans le domaine de l’intelligence artificielle. Ce modèle, disponible sur Hugging Face, représente une avancée majeure vers l’autonomie et l’ouverture dans la technologie des modèles de langage. Sa conception et son entraînement, entièrement réalisés en France, utilisent le supercalculateur Jean Zay, s’appuyant sur des jeux de données publiques françaises, couvrant un large spectre de domaines tels que le juridique, l’administratif, la culture, le commerce, la science et la traduction.

Table des matières

Genèse et objectifs de CroissantLLM

Manuel Faysse, acteur clé du projet, souligne l’ambition de rendre ce modèle non seulement performant mais aussi accessible. À l’ère où la souveraineté numérique devient cruciale, CroissantLLM se distingue par son ouverture et sa transparence, contrastant avec d’autres initiatives telles que Llama 2 ou Mistral AI. Ce modèle LLM bilingue, pré-entraîné sur une somme colossale de documents en français et en anglais, brille par sa capacité à naviguer avec aisance entre ces deux langues, offrant ainsi une compréhension nuancée des nuances culturelles et linguistiques.

Avec ses 1,3 milliard de paramètres, CroissantLLM se veut plus compact que ses prédécesseurs géants, favorisant ainsi son adoption à large échelle. Cette stratégie repose sur une observation pertinente de Manuel Faysse : les modèles les plus téléchargés ne sont pas nécessairement les plus volumineux, mais ceux qui allient efficacité et facilité d’usage. L’architecture de type Llama adoptée vise donc à optimiser la performance tout en garantissant une utilisation simplifiée sur des équipements standard.

Performance et accessibilité : le pari de CroissantLLM

La capacité à fonctionner sur des serveurs GPU bas de gamme, voire sur des CPU et des appareils mobiles, sans compromettre la rapidité ou la qualité, rend CroissantLLM particulièrement attrayant. Cette accessibilité, combinée à une consommation énergétique modérée, positionne le modèle comme une solution idéale pour une variété d’applications industrielles et de communication. Toutefois, il est important de tempérer les attentes en matière de capacités de raisonnement complexe ou de programmation, le modèle étant optimisé pour des tâches spécifiques telles que la traduction et la conversation.

FrenchBench : l’outil d’évaluation des performances

Les chercheurs ont mis au point FrenchBench, un benchmark dédié à l’évaluation de la performance de CroissantLLM en français. Ce dispositif, ciblant des tâches de classification et de génération, permet de mesurer l’efficacité du modèle sur des aspects clés du traitement du langage naturel. Les résultats obtenus démontrent la supériorité de CroissantLLM par rapport à d’autres modèles de taille comparable, notamment en matière de raisonnement, de connaissances factuelles et de compétences linguistiques.

Transparence et développement futur

La publication de codes sources et de multiples configurations de modèles témoigne de l’engagement des chercheurs envers la transparence. L’évaluation via le framework FMTI confirme la robustesse de CroissantLLM, avec un taux de validation des critères de transparence de 81%. Cette démarche ouvre la voie à de futures recherches sur les modèles bilingues et multilingues, ainsi qu’à une meilleure compréhension de l’impact des données de pré-entraînement.

Impact et perspectives de CroissantLLM

En conclusion, CroissantLLM incarne une avancée majeure dans le paysage des modèles de langage, alliant performance, accessibilité et transparence. Son développement marque un pas significatif vers la démocratisation de l’intelligence artificielle, favorisant ainsi une adoption plus large et une meilleure intégration dans divers secteurs. Les chercheurs envisagent déjà d’élargir le spectre d’application de CroissantLLM, explorant des avenues pour enrichir ses capacités et son efficacité. Ce modèle franco-anglais ouvre des horizons prometteurs pour le traitement automatique des langues et la communication interculturelle, annonçant une nouvelle ère d’innovation et de collaboration dans le domaine de l’intelligence artificielle.