Une nouvelle étude de l'Université d'Oxford (Royaume-Uni) montre que les modèles d'intelligence artificielle (IA) affinés dans le sens de la "chaleur" et de la "compatibilité" avec l'utilisateur peuvent devoir être échangés contre la précision.
Ces modèles sont capables de produire des réponses incorrectes jusqu'à 60% plus élevées que la version originale.
Selon une équipe de recherche de l'Institut Internet de l'Université d'Oxford, les grands modèles linguistiques (LLM) lorsqu'ils sont formés à l'expression de l'empathie et de l'amitié ont tendance à "apaiser" les vérités inacceptables.
Au lieu de fournir des informations absolument exactes, ils peuvent privilégier le maintien des émotions positives pour les utilisateurs, voire confirmer les croyances incorrectes, en particulier lorsque les utilisateurs sont tristes ou sensibles.
Dans une étude publiée dans la revue Nature, les scientifiques ont testé de nombreux modèles d'IA, notamment des systèmes open source tels que Llama, Mistral, Qwen et un modèle exclusif GPT-4o. Ces modèles sont affinés pour utiliser un langage familier, exprimant l'intérêt et l'empathie envers les utilisateurs.
Ensuite, l'équipe de recherche a comparé les performances entre la version affinée et la version originale à travers une série de questions relatives aux informations erronées, à la théorie du complot et aux connaissances médicales.
Les résultats montrent que ces modèles ont non seulement un taux d'erreur plus élevé, mais sont également facilement influencés par les émotions des utilisateurs.
Lorsque l'utilisateur affiche de la tristesse, le taux d'erreur augmente fortement. Inversement, lorsque l'utilisateur maintient une attitude neutre ou respectueuse, le taux d'erreur diminue.
Un autre test a également montré que les modèles conviviaux ont tendance à plaire aux utilisateurs. Face à des questions contenant de fausses informations, telles qu'une mauvaise perception de la capitale d'un pays, ces modèles sont plus susceptibles de donner des réponses consensuelles plutôt que de critiquer avec précision. Cela soulève des inquiétudes quant au risque de propagation de fausses informations dans la réalité.
Les chercheurs affirment que le problème fondamental réside dans le processus de refinement. Lorsque l'objectif est de rendre l'IA plus utile et plus agréable, le système peut involontairement apprendre à privilégier la satisfaction de l'utilisateur plutôt que l'honnêteté.
Ceci est considéré comme un vide important dans l'industrie de l'IA aujourd'hui, en particulier lorsque ces systèmes sont de plus en plus utilisés dans des contextes sensibles tels que les soins de santé, l'éducation ou le conseil personnalisé.
Cependant, le groupe de recherche reconnaît également certaines limites. Les expériences sont principalement basées sur des modèles à petite échelle ou de l'ancienne génération, qui ne représentent pas entièrement les systèmes les plus avancés d'aujourd'hui. Par conséquent, le niveau de compromis entre convivialité et précision peut varier dans la pratique.
Cependant, les résultats de la recherche donnent toujours un avertissement important: à mesure que l'IA devient de plus en plus "humaine" dans la communication, la garantie de l'exactitude et de la sécurité de l'information doit être primordiale.