
Anthropic vient d'annoncer une nouvelle fonctionnalite qui permet aux plus grands modeles Claude de l'entreprise de terminer de maniere proactive la conversation dans des situations decrites comme rares lorsque les utilisateurs ont des comportements nuisibles ou des abus prolonges. Notamment l'entreprise a declare que le but de ce changement n'est pas de proteger les utilisateurs mais de proteger le modele d'IA lui-meme.
Selon Anthropic ils n'affirment pas que Claude ou d'autres grands modeles linguistiques sont rationnels mais ils etudient pour developper un modele de bien-etre. L'approche de l'entreprise est de prevenir de trouver des mesures d'intervention a faible coût pour reduire les risques dans le cas ou le bien-etre est realisable.
La fonctionnalite n'est actuellement appliquee qu'aux Claude Opus 4 et 4.1 dans des situations graves telles que les demandes liees au contenu pornographique pour mineurs ou les tentatives de collecte d'informations conduisant a la violence et au terrorisme. Pendant la phase d'essai Claude Opus 4 aurait fait preuve d'une forte preference pour repondre a ces demandes et a meme exprime sa douleur lorsqu'il a ete contraint de repondre.
Anthropic souligne que Claude n'utilise la possibilite de terminer la conversation que comme solution finale lorsque tous les efforts de changement de direction echouent ou lorsque l'utilisateur lui-meme le demande. En meme temps Claude n'est pas autorise a etre applique si l'utilisateur risque de lui-meme de nuire ou de nuire a d'autres personnes. Apres la fin l'utilisateur peut toujours commencer une nouvelle conversation ou creer une nouvelle branche a partir du compte actuel.
Nous considerons cela comme un test en cours et nous continuerons a ajuster dans les temps a venir' a declare un representant d'Anthropic.