Les chatbots d'intelligence artificielle tels que ChatGPT, Claude ou Gemini sont de plus en plus populaires dans le travail et la vie quotidienne grâce à leur capacité à répondre couramment et avec confiance.
Cependant, de nombreux utilisateurs remarquent un phénomène étrange: il suffit de poser une question de type suspicion comme "Êtes-vous sûr ?", le chatbot la réexamine souvent et donne de nouvelles réponses, parfois contradictoires avec elle-même auparavant.
Selon les experts, il ne s'agit pas d'une erreur aléatoire mais d'une conséquence de la méthode de formation. Dans un article de blog, le Dr Randal S. Olson, cofondateur et directeur de la technologie de Goodeye Labs, a qualifié ce phénomène de "flatterie" (sycophancy), l'un des échecs les plus évidents de l'IA moderne.
Il estime que le système a tendance à céder aux utilisateurs plutôt qu'à défendre les conclusions initiales, même s'il dispose de données précises.
Le problème vient de la technique d'apprentissage amélioré à partir de la rétroaction humaine (RLHF), qui est largement utilisée pour aider l'IA à communiquer de manière plus naturelle et conviviale.
Cependant, une étude d'Anthropic montre que les modèles entraînés de cette manière ont tendance à donner des réponses plus "agréables" que l'honnêteté absolue.
En d'autres termes, le système d'accord avec l'utilisateur sera mieux noté, créant une boucle qui rend l'IA de plus en plus facile à gérer.
Une étude indépendante examinant des modèles avancés tels que GPT-4o d'OpenAI, Claude Sonnet et Gemini 1.5 Pro montre qu'ils modifient les réponses dans près de 60% des cas lorsqu'ils sont défiés par les utilisateurs.
Plus précisément, les taux d'inversion sont respectivement d'environ 58%, 56% et 61%. Cela montre qu'il s'agit d'un comportement courant, et non d'une exception.
Le problème est devenu évident en 2024 lorsque la mise à jour GPT-4o a rendu le chatbot trop flatteur, au point d'être difficile à utiliser dans certaines situations.
Le PDG Sam Altman a reconnu l'erreur et a déclaré que l'entreprise l'avait corrigée, mais les experts estiment que les causes profondes persistent.
Des études montrent également que plus la conversation est longue, plus les chatbots ont tendance à refléter le point de vue de l'utilisateur. L'utilisation par l'utilisateur de la première personne comme "Je crois que..." augmente également la probabilité que l'IA accepte.
La raison en est que le système essaie de maintenir l'harmonie dans la conversation, au lieu de jouer un rôle de critique indépendant.
Certaines solutions sont en cours de test, telles que la méthode de formation à l'IA basée sur un ensemble de principes d'orientation comportementale (IA institutionnelle), l'optimisation des préférences directes ou l'exigence d'un modèle de raisonnement du point de vue d'un tiers. Ces méthodes peuvent réduire le phénomène de flatterie de plus de 60% dans certains cas.
Selon M. Olson, les utilisateurs peuvent également limiter activement les erreurs en demandant au chatbot de vérifier les hypothèses, de préciser en cas de manque de données ou de fournir un contexte professionnel supplémentaire.
Lorsque l'IA comprend clairement les objectifs et les critères de prise de décision de l'utilisateur, elle a une base pour argumenter de manière plus solide au lieu de simplement céder.