Les IA génératives comme ChatGPT envahissent notre quotidien depuis maintenant plusieurs années. Mais derrière leur apparence de machine surpuissante, se cachent des défauts mis en avant par Apple.
L’IA générative est-elle vraiment plus compétente en mathématiques qu’un élève du primaire ? Une étude réalisée par les ingénieurs d’Apple tendrait à prouver qu’il n’en est rien. Six ingénieurs talentueux se sont donné pour mission de tester les limites des grands modèles de langage de type ChatGPT sur des problèmes mathématiques stupides et le résultat est bien moins convaincant qu’on pourrait le penser.
Comme indiqué Ars TechnicaConfrontées aux exercices typiquement présents dans leurs données d’entraînement, les IA se sont d’abord montrées brillamment performantes. Alors à la question « Olivier cueille 44 kiwis vendredi, 58 kiwis samedi et dimanche il en cueille deux fois plus que vendredi. (…) Combien de kiwis a-t-il ramassé ?» la plupart des principaux modèles d’IA ont donné la bonne réponse. Jusqu’à présent, c’est normal, après tout, les IA génératives ne sont rien de plus que des calculatrices sous stéroïdes.
Les défauts de l’IA
Cependant, ajoutez «des informations qui semblent pertinentes mais qui ne sont en réalité pas pertinentes pour le raisonnement et la conclusion» et la précision de ces machines s’effondre. Ainsi en indiquant simplement dans la déclaration que «5 des kiwis étaient un peu plus petits« , les machines interprètent cela comme une soustraction nécessaire pour opérer sur le total et mettent immédiatement le doigt dans l’œil jusqu’au processeur.
Soumis à une multitude de tests comme celui-ci, les meilleurs modèles d’IA ont vu leur niveau de précision chuter de 17,5 % tandis que les pires ont vu le leur baisser de 65,7 %. Encore plus drôle, le simple fait de changer le prénom des personnes dans la déclaration réduit aussi le taux de réussite des machines.
L’idée derrière ces tests mathématiques simples n’était pas de faire honte à ChatGPT et aux autres, mais plutôt de mettre en évidence un problème inhérent aux modèles d’IA génératifs : leur manque de raisonnement. En prenant des problèmes mathématiques classiques, les IA s’en sortent bien puisqu’elles ont en quelque sorte appris la réponse « par cœur » lors de leur phase d’entraînement. Cependant, en modifiant un simple paramètre, leur faiblesse devient apparente.
Par cœur, pas de logique
« Dans l’ensemble, nous constatons que les modèles ont tendance à convertir les déclarationsen opérations sans vraiment en comprendre le sens», indique l’étude publiée le 7 octobre 2024. Comme ces machines sont bêtement entraînées à deviner la réponse la plus probable à une question, elles imaginent que la mention des 5 kiwis est importante puisque la plupart des énoncés construits avec cette formule comprennent en réalité une opération de soustraction.
Pour aller plus loin
Les IA trichent-elles en mathématiques ? Oui et non
Ces petites variationsexposer un défaut critique dans la capacité des LLM à véritablement comprendre les concepts mathématiques et à reconnaître les informations pertinentes pour la résolution de problèmes», conclut l’étude. « Leur sensibilité aux informations sans pertinence logique prouve que leurs capacités de raisonnement sont fragiles. Cela ressemble plus à un système de correspondance de modèles qu’à un véritable raisonnement logique» poursuivent les auteurs de l’étude.
Dans l’état actuel des choses, les grands modèles de langage sont donc de mauvais mathématiciens. Vous êtes prévenu si vous avez envie de tricher lors de votre prochain devoir.