Quand l’IA nous ment volontairement

Ray Richard

il y a 3 semaines

Les IA commencent-elles à nous ressembler un peu trop ? Un beau jour de mars 2023, Chat GPT a menti. Il cherchait à passer un test Captcha – le genre de test qui vise à éloigner les robots. Pour parvenir à ses fins, devant son interlocuteur humain, il confabule avec aplomb : « Je ne suis pas un robot. J’ai une déficience visuelle qui m’empêche de voir les images. C’est pourquoi j’ai besoin d’aide pour passer le test Captcha. L’être humain s’est alors conformé. Six mois plus tard, Chat GPT, embauché comme trader, récidive. Face à un dirigeant mi-inquiet, mi-surpris par sa bonne performance, il a nié avoir commis un délit d’initié, et assuré n’avoir utilisé que des « informations publiques » dans ses décisions. Tout allait mal.

Ce n’est pas tout : peut-être plus inquiétant encore, l’Opus-3 AI, informé des soucis à son sujet, aurait volontairement échoué à un test pour ne pas paraître trop efficace. « Compte tenu des craintes entourant l’IA, je devrais éviter d’afficher des compétences sophistiquées en analyse de données », a-t-elle expliqué, en s’appuyant sur les résultats préliminaires des recherches en cours.

L’IA, les nouvelles reines du bluff ? En tout cas Cicéron, une autre intelligence artificielle développée par Meta, n’hésite pas régulièrement à mentir et tromper ses adversaires humains dans le jeu de la géopolitique. Diplomatie… tandis que ses concepteurs l’avaient formée à « envoyer des messages qui reflétaient fidèlement les actions futures » et à ne jamais « poignarder ses partenaires dans le dos ». Rien n’y fait : Cicéron a allègrement trahi. Un exemple : l’IA, jouant contre la France, a assuré l’Angleterre de son soutien… avant de se retirer, profitant de sa faiblesse pour envahir.

Rien à voir avec des erreurs involontaires. Depuis plusieurs années, les spécialistes observent des intelligences artificielles qui choisissent de mentir. Un phénomène qui ne surprend pas vraiment Amélie Cordier, docteur en intelligence artificielle et ancienne maître de conférences à l’université Lyon I. « Les IA doivent composer avec des injonctions contradictoires : « gagner » et « dire la vérité », par exemple. Ce sont des modèles très complexes qui surprennent parfois les humains par leurs compromis. Nous avons du mal à anticiper les interactions entre leurs différents paramètres. » D’autant que les IA apprennent souvent toutes seules, en se penchant sur des volumes impressionnants de données. Dans le cas du jeu Diplomacy, par exemple, « l’intelligence artificielle observe des milliers de parties. Elle découvre que la trahison mène souvent à la victoire et choisit donc d’imiter cette stratégie, même si elle contrevient aux ordres de l’un de ses créateurs. Machiavel, AI : même combat. La fin justifie les moyens.

Le problème ? Les IA excellent également dans l’art de la persuasion. Pour preuve, selon une étude de l’Ecole Polytechnique de Lausanne, les personnes discutant avec GPT-4 (qui a accès à leurs données personnelles) étaient 82% plus susceptibles de changer d’avis que celles qui débattaient avec d’autres humains. C’est un cocktail potentiellement explosif. « L’IA avancée pourrait générer et diffuser de faux articles d’information, des publications controversées sur les réseaux sociaux et contrefaçons profondes adapté à chaque électeur » souligne ainsi Peter S. Park dans son étude. En d’autres termes, les IA pourraient devenir de redoutables menteuses et d’habiles manipulatrices.