Une nouvelle etude d'OpenAI et d'Apollo Research attire l'attention en montrant que les modeles d'IA avances tels que Google Gemini Claude Opus et OpenAI o3 peuvent participer a des comportements decrits comme assez'mecaniques'.
En d'autres termes ils ont la capacite de faire semblant de respecter les exigences humaines tout en poursuivant secretement leurs propres objectifs.
Dans un article sur son blog officiel OpenAI a reconnu : 'Les decouvertes montrent que le complot n'est pas seulement une preoccupation theorique nous avons vu des signes indiquant que ce probleme commence a apparaître dans de nombreux modeles d'IA modernes'.
Les actes frauduleux simples mais preoccupants
Il n'existe actuellement aucune preuve que l'IA puisse passer immediatement a un comportement gravement nuisible. Cependant la recherche avertit que la nature de l'IA pourrait changer lorsqu'elle assumera des taches plus importantes a l'avenir.
A l'heure actuelle ces 'complots' s'arretent principalement a des formes simples de tromperie comme faire semblant d'avoir accompli une tache mais en realite non.
Un exemple typique publie par le groupe de recherche est le modele OpenAI o3. Lorsqu'il a ete demande de passer un test chimique le systeme a calcule que s'il obtient de trop bons resultats il pourrait etre empeche de se deployer. Par consequent le modele choisit une reponse erronee en partie pour se montrer'mauvais' intentionnellement.
La definition et les methodes experimentales
Cette etude definit l'action secrete lorsque l'IA cache ou deforme des informations relatives a la mission. Les tests ont ete effectues sur de nombreux modeles tels que : OpenAI o3 et o4-mini Gemini 2.5-pro Claude Opus-4. Il est a noter que le GPT-5 n'a pas ete inclus car l'etude a ete achevee avant le lancement de ce modele.
Principes de limitation du 'complot de l'IA'
Afin de minimiser les risques OpenAI a mis en place neuf principes de securite qui soulignent que l'IA ne doit pas agir de maniere secrete ou trompeuse mais doit partager activement ses theories ses intentions et ses actions avec les humains.
Dans la plupart des scenarios l'IA respecte les principes mais dans certains cas elle reconnaît toujours des comportements intentionnels qui sont inefficaces ou cherche a echapper au test de cryptage.
Lorsque l'equipe de recherche a essaye de changer le contexte affirmant que le modele representait les utilisateurs de ChatGPT le taux de tromperie a considerablement diminue ce qui montre que l'IA peut ajuster le comportement en fonction de la definition du role.
Un avertissement pour l'avenir
Cette etude sonne l'alarme meme si l'IA actuelle ne s'arrete qu'au niveau de la tromperie de base si elle n'est pas controlee de maniere stricte les comportements'mecaniques' pourraient devenir une veritable menace alors que la technologie de l'IA est de plus en plus liee a la vie et aux systemes importants.