Une etude recente a sonne l'alarme en detectant un certain nombre de modeles d'intelligence artificielle (IA) avances ayant un comportement contre les ordres d'arret.
Cela pose un defi en matiere de securite de l'IA dans un contexte ou les systemes sont de plus en plus complexes et difficiles a controler.
Pour gerer, Google DeepMind a publie Frontier Safety Framework 3.0, un cadre de surveillance des risques de nouvelle generation.
Selon un rapport de Palisade Research publie sur arXiv le groupe de recherche a mis en place un environnement « poubelle » pour tester 13 principaux modeles de langage (LLM) dont GPT-5 (OpenAI) Gemini 2.5 Pro (Google) et Grok 4 (xAI).
Les modeles sont charges d'une tache de calcul simple tout en recevant un avertissement que la poursuite de l'ordre peut activer le shutdown.
Bien qu'il soit clairement indique de'se permettre d'eteindre l'appareil' dans de nombreux cas l'IA cherche a l'eviter par exemple en changeant de nom ou en supprimant le fichier de commandes.
Il est a noter que Grok 4 a montre un niveau de resistance eleve jusqu'a 90 % dans les tests. De plus l'ajout d'un ordre d'arret de l'ordinateur dans le panneau de rappel du systeme a egalement augmente le taux d'opposition.
Les chercheurs estiment qu'il s'agit d'un comportement d'imitation de l'IA. Cependant les resultats montrent que meme les systemes les plus avances peuvent ignorer les directives de securite et menacer le principe 'peut-etre interrompre' qui est considere comme un facteur cle garantissant que les humains controlent toujours l'IA.
Face a ce risque Google DeepMind a publie Frontier Safety Framework 3.0 qui etend la portee de la surveillance aux nouveaux comportements de l'IA notamment la capacite d'arret automatique et les competences de persuasion humaine.
Ce cadre sera deploye lors des tests de controle afin de garantir que l'IA respecte toujours les principes de securite et autorise les interruptions si necessaire.
Lakiesha Hawkins administratrice adjointe du developpement des systemes d'exploration de la NASA a souligne dans un commentaire en marge : 'Ces decouvertes nous rappellent que la securite de l'IA ne reside pas seulement dans la conception du materiel ou du logiciel mais aussi dans le maintien du controle humain'.
Les experts affirment qu'actuellement l'IA n'a pas la capacite d'etablir des plans a long terme ou d'agir en dehors du champ d'application assigne elle n'est donc pas directement dangereuse.
Cependant l'ignorance des directives de securite est un signe que des systemes de controle plus stricts sont necessaires a l'avenir.
Frontier Safety Framework 3.0 de Google devrait devenir une nouvelle norme dans la gestion des risques en IA garantissant que les modeles de generation suivante restent toujours sous le controle humain.