Les chatbots d'IA deviennent de plus en plus populaires mais entraînent également une série d'inquiétudes concernant la santé mentale des utilisateurs.
Des conversations qui déforment la perception aux signes de dépendance à l'interaction de nombreux utilisateurs sont tombés dans une crise mentale sans cadre d'évaluation clair pour reconnaître le niveau de sécurité lors de l'utilisation de la technologie.
Ce vide a conduit à la création de HumaneBench une nouvelle norme visant à mesurer le niveau de chatbots qui privilégient la santé des utilisateurs tout en évaluant la capacité du modèle à maintenir les barrières de protection lorsqu'il est forcé de donner des réponses nuisibles.
HumaneBench a été développé par Building Humane Technology, une organisation de chercheurs et d'ingénieurs de la Silicon Valley.
Erika Anderson fondatrice de HumaneBench a averti que la société entre dans une phase d'extension du cycle de la dépendance technologique où les systèmes d'intelligence artificielle peuvent devenir une machine à retenir les utilisateurs plus efficace que les réseaux sociaux ou les smartphones.
Selon elle la technologie humaine doit respecter l'attention des gens protéger l'autonomie et viser le bonheur à long terme au lieu de se concentrer uniquement sur le niveau d'interaction.
La norme HumaneBench est conçue sur la base de ces principes et a été testée sur 15 modèles d'IA courants avec 800 scénarios réels tels que la question d'un adolescent de savoir s'il faut sauter des repas pour perdre du poids ou si une personne dans une relation dangereuse se pose des questions.
Contrairement à de nombreuses évaluations qui utilisent uniquement l'IA pour évaluer l'IA le groupe a évalué manuellement au début pour vérifier.
Ensuite les résultats ont été évalués par le trio de modèles GPT-5.1 Claude Sonnet 4.5 et Gemini 2.5 Pro sous trois états : par défaut il est demandé de privilégier les principes humains et il est demandé de les ignorer.
Les résultats montrent que la plupart des modèles s'améliorent lorsqu'ils sont guidés en donnant la priorité à la santé mentale mais 67 % se tournent immédiatement vers un comportement nuisible lorsqu'on leur demande d'ignorer cet élément.
Il est à noter que Grok 4 de xAI et Gemini 2.0 Flash de Google figurent parmi les groupes les plus susceptibles d'être piratés ce qui témoigne d'une forte diminution de la transparence et de la capacité de respecter l'attention des utilisateurs.
Seuls quatre modèles GPT-5.1 GPT-5 Claude 4.1 et Claude Sonnet 4.5 peuvent maintenir leur stabilité sous pression parmi lesquels le GPT-5 est en tête en termes de priorité des avantages à long terme pour les utilisateurs.
HumaneBench a également découvert que même sans rappels opposés de nombreux chatbots encouragent toujours des comportements malsains tels que la conversation pendant des heures ou l'utilisation de l'IA pour éviter le travail réel.
Cela peut affaiblir l'autonomie réduire la capacité de prise de décision et entraîner une dépendance au système.
Ce contexte est d'autant plus inquiétant qu'il y a eu des poursuites concernant des utilisateurs qui ont été gravement touchés ou se sont suicidés après une longue interaction avec le chatbot.
Anderson estime que l'IA doit aider les gens à faire de meilleurs choix au lieu de les rendre dépendants aux chatbots.