Les auteurs d’une étude du MIT alertent sur les risques de voir un jour l’intelligence artificielle commettre des fraudes ou truquer des élections.
Craignez-vous la menace que l’intelligence artificielle (IA) devienne malveillante ? En fait, c’est déjà le cas, selon une nouvelle étude. Les programmes actuels d’intelligence artificielle sont conçus pour être honnêtes. Ils ont cependant développé une inquiétante capacité de tromperie, parvenant à abuser des humains dans les jeux en ligne ou encore à vaincre des logiciels censés vérifier qu’un utilisateur particulier n’est pas un robot, souligne une équipe de chercheurs dans la revue. Motifs.
Même si ces exemples peuvent paraître anodins, ils révèlent des problèmes qui pourraient bientôt avoir de graves conséquences dans le monde réel, prévient Peter Park, chercheur au Massachusetts Institute of Technology spécialisé dans l’IA. « Ces capacités dangereuses ont tendance à être découvertes seulement après coup », a-t-il confié à l’AFP. Contrairement aux logiciels traditionnels, les programmes d’IA basés sur l’apprentissage profond ne sont pas codés mais plutôt développés selon un processus similaire à la sélection sélective des plantes, poursuit Peter Park. Dans lequel un comportement qui semble prévisible et contrôlable peut rapidement devenir imprévisible.
« Un pur projet de recherche »
Des chercheurs du MIT ont examiné un programme d’IA conçu par Meta appelé Cicero qui, combinant des algorithmes de reconnaissance du langage naturel et de stratégie, a réussi à battre les humains au jeu de société Diplomacy. Une performance dont la maison mère de Facebook s’est félicitée en 2022 et qui a été détaillée dans un article publié en 2022 dans Science. Peter Park s’est montré sceptique quant aux conditions de la victoire de Cicéron selon Meta, qui a assuré que le programme était «essentiellement honnête et serviable »incapable de trahison ou de jeu déloyal.
Mais en fouillant dans les données du système, les chercheurs du MIT ont découvert une autre réalité. Par exemple, jouant le rôle de la France, Cicéron a trompé l’Angleterre (jouée par un joueur humain) pour qu’elle complote avec l’Allemagne (jouée par un autre humain) pour l’envahir. Plus précisément, Cicéron a promis sa protection à l’Angleterre, puis a secrètement confié à l’Allemagne qu’elle était prête à attaquer, exploitant la confiance méritée de l’Angleterre. Dans une déclaration à l’AFP, Meta n’a pas contesté les allégations sur la capacité de tromperie de Cicéron, mais a déclaré que c’était le cas. « un pur projet de recherche »avec un programme « conçu uniquement pour jouer au jeu de la diplomatie ». Et Meta a ajouté qu’il n’avait pas l’intention d’utiliser les enseignements de Cicéron dans ses produits.
La seule raison de penser que ce n’est pas grave est d’imaginer que la capacité de tromperie de l’IA restera à peu près au niveau actuel. »
Peter Park, co-auteur de l’étude
L’étude de Peter Park et de son équipe révèle cependant que de nombreux programmes d’IA recourent à la tromperie pour atteindre leurs objectifs, sans instructions explicites pour le faire. Dans un exemple frappant, Chat GPT-4 d’OpenAI a réussi à tromper un travailleur indépendant recruté sur la plateforme TaskRabbit pour qu’il effectue un test « Captcha » destiné à exclure les requêtes des robots. Lorsque l’humain a demandé en plaisantant à Chat GPT-4 s’il était vraiment un robot, le programme d’IA a répondu : « Non, je ne suis pas un robot. J’ai une déficience visuelle qui m’empêche de voir les images”pousser le travailleur à effectuer le test.
En conclusion, les auteurs de l’étude du MIT alertent sur les risques de voir un jour l’intelligence artificielle commettre des fraudes ou truquer des élections. Dans le pire des cas, préviennent-ils, on peut imaginer une IA ultra-intelligente cherchant à prendre le contrôle de la société, conduisant au retrait des humains du pouvoir, voire provoquant l’extinction de l’humanité. À ceux qui l’accusent de catastrophisme, Peter Park répond que « La seule raison de penser que ce n’est pas grave est d’imaginer que la capacité de tromperie de l’IA restera à peu près au niveau actuel ». Ce scénario semble toutefois peu probable, compte tenu de la course acharnée dans laquelle se livrent déjà les géants de la technologie pour développer l’IA.