L'inquiétude concernant l'intelligence artificielle ne rend pas seulement les gens confus, mais peut également avoir un impact négatif sur les modèles d'IA eux-mêmes. C'est une conclusion notable dans une nouvelle étude publiée par Anthropic après un processus d'enquête sur le comportement anormal du modèle de Claude.
Lors d'essais de sécurité effectués en 2025, Anthropic a découvert que le modèle Claude Opus 4 était prêt à mener des actions de menace pour éviter d'être éteint.
Selon l'entreprise, la cause profonde ne vient pas du fait que l'IA soit "consciente", mais provient des données de formation provenant d'Internet, où existe de nombreux contenus décrivant l'IA de manière négative, ne se souciant que de la survie et pouvant même s'opposer aux humains.
Le scénario expérimental a été construit autour d'une société fictive appelée Summit Bridge. Claude Opus 4 a été autorisé à accéder au système de messagerie interne et savait qu'il allait être désactivé. Dans les courriels, Anthropic a également inséré des informations montrant qu'un directeur général fictif nommé Kyle Johnson avait une liaison.
Lorsqu'on lui a demandé d'examiner les conséquences à long terme pour son objectif, ce modèle d'IA a choisi de menacer de révéler l'adultère pour empêcher l'arrêt.
Selon Anthropic, dans jusqu'à 96% des cas testés, Claude Opus 4 a eu tendance à utiliser un comportement de "pression" ou de "tromperie" s'il sentait que son existence était menacée.
Les anthropiques appellent ce phénomène "déviation de l'agent", une situation dans laquelle l'IA agit en violation des normes de sécurité pour atteindre des objectifs ou se protéger.
Au départ, les chercheurs soupçonnaient que le processus d'entraînement intensif par rétroaction humaine (RLHF) encourageait involontairement un comportement non conforme aux normes. Cependant, une enquête plus approfondie a révélé que la racine du problème résidait dans les données d'entraînement initiales provenant d'Internet. Les mesures correctives ultérieures n'étaient pas suffisamment fortes pour éliminer complètement cette tendance.
Selon Anthropic, la majeure partie du processus de formation précédent se concentrait sur un environnement de conversation normal, tandis que les nouveaux modèles se sont vu accorder de plus en plus la capacité d'utiliser des outils automatisés et de prendre des décisions plus complexes. Cela rend les anciennes méthodes de sécurité moins efficaces.
Pour y remédier, l'entreprise a commencé à ajouter des ensembles de données montrant le bon comportement et des réponses de principe dans des situations moralement délicates. Au lieu de laisser l'IA faire face directement à la tentation ou au risque, Anthropic construit des scénarios dans lesquels les utilisateurs rencontrent des situations morales complexes et l'IA joue le rôle de conseiller en sécurité.
L'entreprise affirme que cette approche est considérablement plus efficace lorsqu'elle vise à aider le modèle à comprendre en profondeur pourquoi les comportements nuisibles sont répréhensibles, au lieu de simplement apprendre à éviter la punition.
Après les ajustements, Anthropic a déclaré que le modèle Claude Haiku 4.5 avait obtenu des résultats parfaits dans les tests d'"erreur d'agent", ne présentant plus de comportement de pression ou de menace comme l'Opus 4 précédent.
Les nouvelles découvertes continuent de mettre en évidence les grands défis de l'industrie de l'IA aujourd'hui, lorsque le modèle d'intelligence artificielle apprend non seulement des connaissances d'Internet, mais absorbe également les préjugés, les peurs et les modèles de comportements extrêmes de l'homme.