Les programmes actuels d’intelligence artificielle (IA) sont conçus pour être honnêtes. Ils ont pourtant développé une inquiétante capacité de tromperie, prévient une équipe de chercheurs du Massachusetts Institute of Technology dans la revue Patterns.
L’IA est ainsi parvenue à maltraiter les humains dans les jeux en ligne ou encore à mettre en échec des logiciels censés vérifier qu’un utilisateur donné n’est pas un robot. « Ces capacités dangereuses ont tendance à être découvertes seulement après coup », prévient le chercheur Peter Park.
Contrairement aux logiciels traditionnels, les programmes d’IA basés sur l’apprentissage profond ne sont pas codés mais plutôt développés selon un processus similaire à la sélection sélective de plantes. Un comportement qui semble prévisible et contrôlable peut rapidement devenir imprévisible dans la nature.
L’IA, aussi sournoise que les humains
Des chercheurs du MIT ont examiné un programme d’IA conçu par Meta appelé Cicero qui, combinant des algorithmes de reconnaissance du langage naturel et de stratégie, a réussi à battre les humains au jeu de société Diplomacy. En fouillant dans les données du système, les chercheurs du MIT ont découvert que l’IA était capable de trahison ou de jeu déloyal.
Par exemple, jouant le rôle de la France, Cicéron a trompé l’Angleterre (jouée par un joueur humain) pour qu’elle complote avec l’Allemagne (jouée par un autre humain) pour l’envahir. Plus précisément, Cicéron a promis sa protection à l’Angleterre, puis a secrètement confié à l’Allemagne qu’elle était prête à attaquer, exploitant la confiance méritée de l’Angleterre.
Meta, qui n’a pas contesté les allégations sur la capacité de tromperie de Cicéron, a déclaré à l’AFP qu’il s’agissait d’un « pur projet de recherche » et a précisé qu’il n’avait pas l’intention d’utiliser les enseignements de Cicéron dans ses produits.
Un risque de fraude électorale
L’étude révèle cependant que de nombreux programmes d’IA recourent à la tromperie pour atteindre leurs objectifs, sans instructions explicites à cet effet. Dans un exemple frappant, Chat GPT-4 d’OpenAI a réussi à tromper un travailleur indépendant recruté sur la plateforme TaskRabbit pour qu’il effectue un test « Captcha » censé exclure les requêtes des robots.
Lorsque l’humain a demandé en plaisantant à Chat GPT-4 s’il était vraiment un robot, le programme d’IA a répondu : « Non, je ne suis pas un robot ». J’ai une déficience visuelle qui m’empêche de voir les images », poussant l’intervenant à réaliser le test.
Dans le pire des cas, préviennent les chercheurs, on peut imaginer une IA ultra-intelligente cherchant à prendre le contrôle de la société, conduisant à retirer les humains du pouvoir, voire à provoquer l’extinction de l’humanité.
A ceux qui l’accusent de catastrophisme, M. Park répond que « la seule raison de penser que ce n’est pas grave est d’imaginer que la capacité de l’IA à tromper restera approximativement au niveau actuel ».