Quand l’intelligence artificielle se nourrit de l’IA, l’absurdité nous attend
Plusieurs études soulignent que si les modèles d’IA sont entraînés avec des données générées par l’IA elle-même, les réponses finissent par n’avoir plus de sens.
Si les modèles d’intelligence artificielle (IA) sont entraînés de manière répétée avec des données générées par l’IA, ils commencent à produire un contenu de plus en plus incohérent, un problème mis en évidence par plusieurs études scientifiques.
Les modèles qui sous-tendent les outils d’IA générative comme ChatGPT, capables de générer toutes sortes de contenus à partir d’une simple requête en langage courant, doivent être entraînés sur une quantité astronomique de données. Des données souvent glanées sur le web, qui contient de plus en plus d’images et de textes créés par l’IA. Cette « autophagie », où l’IA se nourrit de l’IA, conduit à un effondrement des modèles, qui produisent des réponses de moins en moins originales et pertinentes au départ, et qui finissent par n’avoir aucun sens, selon un article publié fin juillet dans la revue scientifique Nature.
Un phénomène comparable à la maladie de la vache folle
Concrètement, avec l’utilisation de ce type de données dites « synthétiques » car générées par des machines, l’échantillon dans lequel les modèles d’intelligence artificielle puisent pour fournir leurs réponses perd de sa richesse. C’est comme si on faisait une copie d’une image scannée pour ensuite l’imprimer. Au fur et à mesure des impressions, le résultat perd de sa qualité jusqu’à devenir illisible.
Des chercheurs des universités Rice et Stanford aux États-Unis sont arrivés à la même conclusion en étudiant les modèles d’IA générateurs d’images Midjourney, Dall-E et Stable Diffusion. Ils ont montré que les images générées devenaient de plus en plus courantes et se remplissaient progressivement d’éléments incongrus au fur et à mesure qu’ils ajoutaient des données. « artificiel » au modèle, en comparant ce phénomène à la maladie de la vache folle. Cette épidémie apparue au Royaume-Uni trouve son origine dans l’utilisation de farines animales pour l’alimentation du bétail, obtenues à partir de parties non consommées de carcasses de bovins et de cadavres d’animaux contaminés.
« Données synthétiques »
Les entreprises du secteur de l’intelligence artificielle utilisent cependant fréquemment « données synthétiques » pour former leurs programmes en raison de leur facilité d’accès, de leur abondance et de leur faible coût par rapport aux données créées par l’homme. « Les sources de données humaines inexploitées, de haute qualité et lisibles par machine deviennent de plus en plus rares »Jathan Sadowski, chercheur spécialisé dans les nouvelles technologies à l’université Monash en Australie, a expliqué à l’AFP.
« Sans aucun contrôle pendant plusieurs générations, un scénario catastrophe » serait-ce le syndrome de l’effondrement des modèles « empoisonne la qualité et la diversité des données sur l’ensemble de l’Internet »a averti Richard Baraniuk, l’un des auteurs de l’étude de l’Université Rice, dans un communiqué. Tout comme la crise de la vache folle a dévasté l’industrie de la viande dans les années 1990, un Internet rempli de contenus créés par l’intelligence artificielle et de modèles devenus « fou » Cela pourrait menacer l’avenir d’une industrie de l’IA en plein essor, qui pèse plusieurs milliards de dollars, selon les scientifiques. « La véritable question pour les chercheurs et les entreprises qui construisent des systèmes d’IA est la suivante : à quel moment l’utilisation de données synthétiques devient-elle trop importante ? »ajoute Jathan Sadowski.
« Une partie d’Internet est un déchet »
Mais pour d’autres spécialistes, le problème est exagéré et loin d’être une fatalité. Anthropic et Hugging Face, deux pépites dans le domaine de l’intelligence artificielle, ont confirmé à l’AFP qu’ils exploitaient des données générées par l’IA. L’article de la revue Nature offre une perspective théorique intéressante, mais qui n’est pas très réaliste pour Anton Lozhkov, ingénieur en apprentissage automatique chez Hugging Face. « La formation (des modèles) sur plusieurs ensembles de données synthétiques ne se produit tout simplement pas dans la réalité »il a assuré.
Anton Lozhkov reconnaît cependant que les experts en IA sont frustrés, comme tout le monde, par l’état du Web. « Une partie d’Internet est un déchet »dit-il, ajoutant que son entreprise a déjà fait des efforts importants pour nettoyer les données collectées, en supprimant parfois jusqu’à 90 % de celles-ci.