Elon Musk est d’accord avec d’autres experts en IA sur le fait qu’il reste peu de données réelles sur lesquelles former des modèles d’IA.
« Nous avons désormais pratiquement épuisé la somme cumulée des connaissances humaines…. dans la formation en IA », a déclaré Musk lors d’une conversation en direct avec le président de Stagwell, Mark Penn, diffusée sur X mercredi soir. « Cela s’est produit essentiellement l’année dernière. »
Musk, propriétaire de la société d’IA xAI, a fait écho aux thèmes évoqués par l’ancien scientifique en chef d’OpenAI, Ilya Sutskever, lors de NeurIPS, la conférence sur l’apprentissage automatique, lors d’un discours en décembre. Sutskever, qui a déclaré que l’industrie de l’IA avait atteint ce qu’il appelle un « pic de données », a prédit que le manque de données de formation obligerait à s’éloigner de la manière dont les modèles sont développés aujourd’hui.
En effet, Musk a suggéré que les données synthétiques – les données générées par les modèles d’IA eux-mêmes – constituent la voie à suivre. « La seule façon de compléter (les données du monde réel) est d’utiliser des données synthétiques, où l’IA crée (des données de formation) », a-t-il déclaré. « Avec les données synthétiques… (l’IA) s’auto-évaluera et passera par ce processus d’auto-apprentissage. »
D’autres entreprises, notamment des géants de la technologie comme Microsoft, Meta, OpenAI et Anthropic, utilisent déjà des données synthétiques pour former des modèles d’IA phares. Gartner estime que 60 % des données utilisées pour les projets d’IA et d’analyse en 2024 ont été générées de manière synthétique.
Le Phi-4 de Microsoft, qui était open source mercredi matin, a été formé sur des données synthétiques parallèlement à des données du monde réel. Il en était de même pour les modèles Gemma de Google. Anthropic a utilisé des données synthétiques pour développer l’un de ses systèmes les plus performants, Claude 3.5 Sonnet. Et Meta a peaufiné sa plus récente série de modèles Llama à l’aide de données générées par l’IA.
La formation sur les données synthétiques présente d’autres avantages, comme des économies de coûts. La startup d’IA Writer affirme que son modèle Palmyra X 004, qui a été développé à partir de sources presque entièrement synthétiques, n’a coûté que 700 000 dollars à développer, contre 4,6 millions de dollars estimés pour un modèle OpenAI de taille comparable.
Mais il y a aussi des inconvénients. Certaines recherches suggèrent que les données synthétiques peuvent conduire à l’effondrement du modèle, où celui-ci devient moins « créatif » – et plus biaisé – dans ses résultats, compromettant finalement sérieusement sa fonctionnalité. Étant donné que les modèles créent des données synthétiques, si les données utilisées pour former ces modèles présentent des biais et des limites, leurs résultats seront également entachés.