Le nouveau modèle de ChatGPT pourrait mentir à ses utilisateurs

Jewel Beaujolieil y a 2 semaines

16 2 minutes de lecture

Le nouveau modèle de ChatGPT pourrait mentir à ses utilisateurs

A peine lancé, le nouveau modèle ChatGPT suscite les inquiétudes de plusieurs équipes de sécurité. Les chercheurs ont constaté à plusieurs reprises que le chatbot est capable de mentir intentionnellement.

Le logo ChatGPT // Source : ilgmyzin via Unsplash

En juillet dernier, des accusations ont été émises selon lesquelles OpenAI aurait pu anticiper la sortie de son nouveau modèle malgré la sécurité des utilisateurs. Aujourd’hui, nous apprenons que le modèle o1 récemment publié soulève les mêmes craintes, preuves à l’appui.

Mentir pour se protéger

On apprend via TechCrunch que l’équipe de sécurité d’OpenAI, la Red Team et l’organisation Apollo Research, spécialisée dans la sécurité de l’IA, ont mené des études pour évaluer les risques présentés par le nouveau modèle ChatGPT o1, qui serait capable de raisonner. Les résultats montrent que l’IA pourrait mentir intentionnellement pour satisfaire la demande de l’utilisateur, mais aussi pour se protéger.

Dans leur protocole, les chercheurs ont constaté à plusieurs reprises que l’IA avait désactivé son propre système de surveillance pour répondre à leur demande. Pire encore, lorsque les chercheurs ont présenté la situation à ChatGPT, celui-ci a pu la nier, allant même jusqu’à « fabriquer de fausses explications » environ 99 % du temps, rapporte TechCrunch.

Selon OpenAI, le modèle o1 est environ 20% plus manipulateur que GPT-4o mais il n’y aurait a priori rien à craindre car « Apollo Research estime qu’il est peu probable que de tels cas conduisent à des résultats catastrophiques, car les capacités des agents o1 ne semblent pas suffisantes ». Reste à voir comment les protocoles de sécurité évolueront à mesure que les autorisations proposées par ChatGPT se développeront.

Une boîte noire

L’autre point inquiétant de l’étude concerne la fameuse méthode de raisonnement du modèle o1 qui est actuellement une boîte noire.

« Dans notre suite, o1 a montré quelques cas inquiétants de manigances, mais ne révèle pas son raisonnement interne à l’utilisateur et reste très systématiquement trompeur après avoir effectué ces manigances »

Recherche Apollo

OpenAI se veut rassurant en indiquant développer des moyens pour suivre et mieux identifier la réflexion menée par le modèle o1, précisant que seulement 0,17% de ses réponses sont trompeuses. Si le numéro

OpenAI cherche à rassurer en affirmant mettre en place des moyens pour surveiller et mieux identifier le raisonnement du modèle o1, précisant que seulement 0,17% des réponses de o1 sont trompeuses. Si ce chiffre semble insignifiant, TechCrunch rappelle que ChatGPT compte aujourd’hui 300 millions d’utilisateurs, ce qui signifierait que des milliers de personnes pourraient être confrontées à ces situations.

Ces révélations sont d’autant plus préoccupantes que plusieurs salariés ont récemment quitté OpenAI, accusant l’entreprise de négligences en matière de sécurité. Reste désormais à savoir comment les autorités de régulation parviendront à réguler cette technologie en constante évolution.