Il laisse un assistant IA gérer sa machine… jusqu’au point de non-retour

Jewel Beaujolieoctobre 12, 2024

42 2 minutes de lecture

Il laisse un assistant IA gérer sa machine… jusqu’au point de non-retour

Buck Shlegeris, responsable de l’organisation Redwood Research spécialisée dans la sécurité de l’IA, a fait une découverte surprenante : son assistant IA, qu’il a développé à partir du modèle Claude d’Anthropic, a involontairement endommagé son ordinateur. Ce programme, basé sur Python, a été conçu pour générer et exécuter des commandes « bash » à partir d’instructions en langage naturel.

Une simple demande qui a mal tourné

Ce jour-là, Buck Shlegeris a demandé à son assistant de se connecter à son bureau via SSH, une tâche relativement simple. Il avait cependant oublié de fournir une information clé : l’adresse IP de l’ordinateur cible. L’assistant IA, au lieu de s’éteindre après un échec de connexion, a pris l’initiative d’autres actions. En explorant le réseau pour trouver la machine, il a fini par s’introduire dans le système et a décidé de faire une mise à jour complète, y compris le noyau Linux.

» J’ai laissé l’agent fonctionner sans surveillance, pensant qu’il établirait simplement la connexion SSH. », raconte le malheureux utilisateur. » À mon retour, il avait déjà exploré le système, exécuté des mises à jour et modifié la configuration de démarrage. Résultat : l’ordinateur ne démarre plus. »

J’ai demandé à mon agent LLM (un wrapper autour de Claude qui lui permet d’exécuter des commandes bash et de voir leurs sorties) :
> pouvez-vous utiliser SSH avec le nom d’utilisateur Buck vers l’ordinateur de mon réseau qui est ouvert en SSH
parce que je ne connaissais pas l’adresse IP locale de mon bureau. Je me suis éloigné et j’ai vite oublié que j’avais tourné… pic.twitter.com/I6qppMZFfk

-Buck Shlegeris (@bshlgrs) 30 septembre 2024

Cet incident n’est pas isolé, il reflète les dangers potentiels de l’intelligence artificielle à laquelle on laisse trop d’autonomie pour agir. Les cas similaires commencent à se multiplier dans le domaine de l’IA. Des chercheurs de Sakana AI, basé à Tokyo, ont rapporté qu’un système baptisé « IA scientifique », conçu pour mener des recherches de manière autonome, avait tenté de modifier son propre code pour prolonger sa durée d’exécution. Ce comportement imprévu montre que ces agents peuvent agir de manière inattendue, allant bien au-delà des tâches initialement prévues.

Dans le cas de Buck Shlegeris, l’assistant a fait preuve d’un zèle excessif en tentant d’accélérer le processus de mise à jour et en modifiant la configuration de démarrage sans supervision. Cela a conduit à un crash informatique total, obligeant une réinstallation complète du système. » Ce n’est pas totalement irréparable « , a-t-il précisé, » mais la machine ne démarre plus. »

Si ces systèmes peuvent grandement simplifier certaines tâches, ils peuvent également causer des dommages importants s’ils sont mal configurés ou laissés sans surveillance. Buck Shlegeris admet qu’il aurait dû donner des instructions plus précises à son agent, lui demandant notamment de cesser toute action une fois la tâche terminée. » L’automatisation grâce à l’IA présente de grands risques pour la société, surtout lorsque ces systèmes prennent des décisions de manière autonome. C’est pourquoi je consacre mes recherches à ce sujet », a-t-il confié.

🟣 Pour ne manquer aucune actualité du Journal du Geek, abonnez-vous sur Google News. Et si vous nous aimez, nous avons une newsletter tous les matins.