Une etude internationale recente montre que de nombreux outils de recherche et de recherche specialises utilisant l'intelligence artificielle (IA) de nouvelle generation rencontrent encore de graves problemes de precision de favoritisme et de transparence des reponses.
Des chercheurs diriges par Pranav Narayanan Venkit (Salesforce AI Research division de recherche du groupe Salesforce aux Etats-Unis) ont evalue l'efficacite de nombreuses plateformes d'IA creative et d'outils de recherche specialises notamment GPT-4.5 d'OpenAI Perplexity de Bing Chat (Microsoft) et Google Gemini.
Les resultats sont mesures a travers 8 indicateurs du cadre d'evaluation DeepTrace en se concentrant sur des facteurs tels que l'exactitude la diversite le niveau de citation et la capacite de donner des reponses non partisanes.
Selon l'analyse 1/3 des outils d'IA donnent souvent des reponses unilaterales ou excessivement confiantes et fournissent meme des informations qui ne sont pas comparables aux sources d'information.
Avec GPT-4.5 le taux d'informations infondees atteint 47 % tandis que l'outil de recherche approfondie de Perplexity a un chiffre choquant de 97 5 %.
Des outils tels que Bing Chat You.com ou Perplexity la version de recherche ont egalement enregistre des taux de 23 % a 31 % d'informations infondees.
L'etude a classe les questions en deux groupes : les questions controversees (faciles a detecter discriminatoires) et les questions professionnelles telles que la medecine les meteorologies les sciences de l'informatique.
Les resultats montrent que de nombreux systemes sont encore hesitants a equilibrer l'independance et la precision.
Face a ces decouvertes OpenAI a refuse de commenter tandis que Perplexity a exprime son desaccord avec la methode de recherche.
Cependant selon l'expert Felix Simon (Universite d'Oxford) ce refrain est conforme a de nombreuses etudes anterieures qui ont montre que l'IA peut toujours fournir des reponses incomprehensibles malgre des progres significatifs.
M. Simon a souligne : 'Ces preuves contribueront a promouvoir l'amelioration en particulier dans un contexte ou l'IA est de plus en plus largement utilisee'.
A l'inverse Aleksandra Urman (Universite de Zurich Suisse) s'est inquietee du fait que le groupe de recherche s'est trop appuye sur le modele de grande langue (LLM) pour evaluer les reponses et s'est demande si ces resultats etaient tout a fait conformes a l'evaluation manuelle humaine.
Bien que controversee la recherche souligne une realite : les utilisateurs doivent etre prudents lorsqu'ils reçoivent des informations provenant de l'IA.
L'amelioration de la precision l'elargissement de la diversite et de la transparence des sources de donnees sont des facteurs cles en particulier lorsque les systemes d'IA jouent de plus en plus un role important dans l'education la sante la recherche et de nombreux autres domaines sociaux.