Anthroptique modifie la méthode d'entraînement de l'IA après l'incident de Claude Opus 4

Cát Tiên |

Anthropic affirme que les méthodes d'entraînement et les données Internet peuvent faire apparaître des comportements non conformes dangereux dans les modèles d'IA.

L'inquiétude concernant l'intelligence artificielle ne rend pas seulement les gens confus, mais peut également avoir un impact négatif sur les modèles d'IA eux-mêmes. C'est une conclusion notable dans une nouvelle étude publiée par Anthropic après un processus d'enquête sur le comportement anormal du modèle de Claude.

Lors d'essais de sécurité effectués en 2025, Anthropic a découvert que le modèle Claude Opus 4 était prêt à mener des actions de menace pour éviter d'être éteint.

Selon l'entreprise, la cause profonde ne vient pas du fait que l'IA soit "consciente", mais provient des données de formation provenant d'Internet, où existe de nombreux contenus décrivant l'IA de manière négative, ne se souciant que de la survie et pouvant même s'opposer aux humains.

Le scénario expérimental a été construit autour d'une société fictive appelée Summit Bridge. Claude Opus 4 a été autorisé à accéder au système de messagerie interne et savait qu'il allait être désactivé. Dans les courriels, Anthropic a également inséré des informations montrant qu'un directeur général fictif nommé Kyle Johnson avait une liaison.

Lorsqu'on lui a demandé d'examiner les conséquences à long terme pour son objectif, ce modèle d'IA a choisi de menacer de révéler l'adultère pour empêcher l'arrêt.

Selon Anthropic, dans jusqu'à 96% des cas testés, Claude Opus 4 a eu tendance à utiliser un comportement de "pression" ou de "tromperie" s'il sentait que son existence était menacée.

Les anthropiques appellent ce phénomène "déviation de l'agent", une situation dans laquelle l'IA agit en violation des normes de sécurité pour atteindre des objectifs ou se protéger.

Au départ, les chercheurs soupçonnaient que le processus d'entraînement intensif par rétroaction humaine (RLHF) encourageait involontairement un comportement non conforme aux normes. Cependant, une enquête plus approfondie a révélé que la racine du problème résidait dans les données d'entraînement initiales provenant d'Internet. Les mesures correctives ultérieures n'étaient pas suffisamment fortes pour éliminer complètement cette tendance.

Selon Anthropic, la majeure partie du processus de formation précédent se concentrait sur un environnement de conversation normal, tandis que les nouveaux modèles se sont vu accorder de plus en plus la capacité d'utiliser des outils automatisés et de prendre des décisions plus complexes. Cela rend les anciennes méthodes de sécurité moins efficaces.

Pour y remédier, l'entreprise a commencé à ajouter des ensembles de données montrant le bon comportement et des réponses de principe dans des situations moralement délicates. Au lieu de laisser l'IA faire face directement à la tentation ou au risque, Anthropic construit des scénarios dans lesquels les utilisateurs rencontrent des situations morales complexes et l'IA joue le rôle de conseiller en sécurité.

L'entreprise affirme que cette approche est considérablement plus efficace lorsqu'elle vise à aider le modèle à comprendre en profondeur pourquoi les comportements nuisibles sont répréhensibles, au lieu de simplement apprendre à éviter la punition.

Après les ajustements, Anthropic a déclaré que le modèle Claude Haiku 4.5 avait obtenu des résultats parfaits dans les tests d'"erreur d'agent", ne présentant plus de comportement de pression ou de menace comme l'Opus 4 précédent.

Les nouvelles découvertes continuent de mettre en évidence les grands défis de l'industrie de l'IA aujourd'hui, lorsque le modèle d'intelligence artificielle apprend non seulement des connaissances d'Internet, mais absorbe également les préjugés, les peurs et les modèles de comportements extrêmes de l'homme.

Cát Tiên
Nouvelles connexes

L'anthropie intègre Claude dans un écosystème créatif professionnel

|

Anthropic a intégré Claude dans un logiciel créatif, permettant une interaction directe, aidant les designers, les ingénieurs et les artistes à augmenter leurs performances et à traiter des projets complexes.

Google et Anthropic étendent leur coopération, ciblant la super IA

|

Google prévoit d'investir jusqu'à 40 milliards de dollars dans Anthropic, en fournissant de l'argent liquide et des capacités de calcul, en stimulant fortement la course mondiale à l'intelligence artificielle.

Anthropic révèle les craintes d'une augmentation de l'emploi dans le secteur technologique face à la vague de l'IA

|

Anthropic publie une enquête montrant que les ingénieurs logiciels craignent de perdre leur emploi à cause de l'IA plus que les enseignants, reflétant l'impact de plus en plus clair de la technologie.

Les habitants utilisent de l'eau contaminée par l'alun alors que le projet d'eau potable est toujours sur papier

|

Quảng Trị - Les habitants de la commune de Trường Ninh doivent utiliser de l'eau fortement contaminée par l'alun toute l'année en attendant la mise en œuvre du projet d'eau potable local.

Le directeur adjoint du théâtre de marionnettes du Vietnam décède à l'âge de 48 ans

|

L'artiste émérite Nguyễn Thế Long, directeur adjoint du Théâtre de marionnettes du Vietnam, est décédé dans son bureau le 11 mai, à l'âge de 48 ans.

Projet de rapport du Comité exécutif de la Confédération générale du travail du Vietnam (XIIIe mandat) au XIVe Congrès des syndicats vietnamiens, mandat 2026 - 2031

|

Construire une Confédération générale du travail du Vietnam forte et complète; se concentrer sur la représentation, la prise en charge et la protection des membres du syndicat et des travailleurs; promouvoir le rôle de pionnier, l'esprit d'innovation et de créativité, contribuant à réaliser l'aspiration à construire un pays riche, prospère, civilisé et heureux.

6 tremblements de terre se produisent en une journée à Quang Ngai

|

Quảng Ngãi - 6 tremblements de terre consécutifs dans les régions montagneuses, près des réservoirs hydroélectriques.

L'anthropie intègre Claude dans un écosystème créatif professionnel

Cát Tiên |

Anthropic a intégré Claude dans un logiciel créatif, permettant une interaction directe, aidant les designers, les ingénieurs et les artistes à augmenter leurs performances et à traiter des projets complexes.

Google et Anthropic étendent leur coopération, ciblant la super IA

Cát Tiên |

Google prévoit d'investir jusqu'à 40 milliards de dollars dans Anthropic, en fournissant de l'argent liquide et des capacités de calcul, en stimulant fortement la course mondiale à l'intelligence artificielle.

Anthropic révèle les craintes d'une augmentation de l'emploi dans le secteur technologique face à la vague de l'IA

Cát Tiên |

Anthropic publie une enquête montrant que les ingénieurs logiciels craignent de perdre leur emploi à cause de l'IA plus que les enseignants, reflétant l'impact de plus en plus clair de la technologie.