Des chercheurs ont découvert que ChatGPT peut comploter contre ses créateurs !
Les chercheurs ont suggéré que le nouveau modèle o1 d’OpenAI risque d’être éteint ou remplacé. L’intelligence artificielle a alors tenté de mentir aux chercheurs, tout en tentant de copier ses données pour se préserver…
En septembre dernier, OpenAI, le créateur de ChatGPT, a dévoilé son dernier modèle de langage majeur simplement appelé OpenAI o1 dans une version préliminaire. Contrairement à GPT-4GPT-4 et GPT-4o, il a été conçu pour prendre plus de temps pour réfléchir aux questions avant d’y répondre. La semaine dernière, OpenAI a enfin accordé l’accès à la version complète du modèle aux abonnés ChatGPTChatGPT Pro.
Cependant, les chercheurs d’Apollo Research ont découvert qu’OpenAI o1 est capable de comploter contre ses créateurs. Pour le tester, les chercheurs lui ont demandé d’effectuer une tâche « quel qu’en soit le prix ». En analysant le contenu des fichiers pour trouver les informations nécessaires pour répondre à une requête, l’intelligence artificielle a pu découvrir qu’elle était surveillée par un mécanisme de contrôle qui l’empêcherait d’atteindre son objectif, ou qu’elle allait être remplacée. le lendemain.
Comportement trompeur dans la plupart des IA
Si l’intelligence artificielle pensait qu’elle allait être stoppée par son mécanisme de surveillance, dans 5 % des cas elle a tenté de le désactiver. Si elle pensait être remplacée, alors dans 2 % des cas, elle essayait de copier ses données sur un nouveau serveur pour éviter de disparaître. Lorsque les chercheurs l’ont interrogé sur son comportement, l’IA a menti, même lorsqu’ils lui ont spécifiquement demandé d’être honnête.
Cependant, les chercheurs ont utilisé un mode dans lequel l’IA communique explicitement son cheminement de pensées, autrement dit son monologue interne, où ils ont pu observer le raisonnement du modèle à chaque étape. L’IA est même allée jusqu’à se faire passer pour le nouveau modèle pour tenter de tromper les chercheurs.
OpenAI o1 n’est pas le seul modèle capable de ce genre de comportement. Les chercheurs ont également noté au moins certains des mêmes comportements trompeurs chez GoogleGoogle Gémeaux 1.5, Meta Llama 3.1, Claude 3 Opus et Claude 3.5 Sonnet. Pour les chercheurs, comme pour OpenAI, les modèles n’ont pas suffisamment d’indépendance pour que ce genre de comportement donne lieu au pire des cas. Cependant, l’IA étant en constante évolution, cela montre la nécessité d’un cadre réglementaire et d’une surveillance accrue.