Une nouvelle étude menée par des scientifiques associés à l'université Cornell et à l'université de Californie à Los Angeles suscite une vive inquiétude dans le milieu universitaire lorsqu'ils découvrent que près de 150 000 fausses citations créées par l'intelligence artificielle (IA) sont apparues dans des articles de recherche scientifique.
Selon l'étude, environ 146 900 références non réelles ont été découvertes dans plus de 2,5 millions d'articles scientifiques stockés sur quatre grandes bases de données de recherche, dont arXiv, bioRxiv, SSRN et PubMed Central.
Les chercheurs estiment que la principale raison vient du fait que de nombreux auteurs utilisent des chatbots d'IA tels que ChatGPT ou Gemini pour aider à écrire des articles mais ne vérifient pas la source du document.
Les grands modèles linguistiques (LLM) d'aujourd'hui ont la capacité de créer des textes très convaincants, mais ils présentent également une limitation grave appelée "l'illusion de l'IA", qui est un phénomène où le système crée des informations qui semblent raisonnables mais qui sont totalement fausses.
Dans un environnement académique, c'est particulièrement dangereux car les articles scientifiques sont toujours basés sur l'exactitude et l'authenticité des références.
L'équipe de recherche a analysé environ 111 millions de citations dans la base de données scientifiques afin de trouver des documents qui ne peuvent être comparés à aucune publication existante.
Bien qu'une partie de la faute provienne d'erreurs de frappe ou de confusions d'informations, le groupe de recherche a toujours déterminé qu'un grand nombre de citations entièrement créées par l'IA n'étaient pas réelles.
Il est à noter que les chercheurs ont déclaré que le nombre de références inexistantes a fortement augmenté depuis 2023, date à laquelle les chatbots d'IA sont devenus populaires dans le monde entier.
Cela montre que de nombreux scientifiques ou étudiants de troisième cycle dépendent excessivement des outils de l'IA dans le processus de rédaction d'articles.
Selon le groupe d'auteurs, les fausses citations n'apparaissent pas seulement dans quelques études individuelles, mais sont dispersées dans de nombreux articles différents.
Ceci est considéré comme un signe que le problème s'est étendu à la communauté universitaire.
Usha Haley - professeur de gestion à l'université d'État de Wichita (États-Unis) - a estimé que l'augmentation des fausses citations est un avertissement sérieux pour la science moderne.
Mme Haley estime que les références créées par l'IA affaiblissent la base de la confiance du milieu universitaire, qui dépend du processus de critique égalitaire et de l'accumulation de connaissances à travers de nombreuses générations de recherche.
Ce qui est inquiétant, c'est que ce scepticisme vient maintenant de l'intérieur de la communauté universitaire", a déclaré Mme Haley.
Les archives scientifiques telles que arXiv ou bioRxiv jouent un rôle très important dans le monde de la recherche. Avant d'être publiés dans des revues officielles, de nombreux travaux sont généralement publiés à l'avance sur ces plateformes afin que la communauté scientifique mondiale puisse y accéder et y réfuter.
Face au risque que l'IA "pollue" les données universitaires, arXiv a récemment annoncé qu'elle interdirait les articles de recherche contenant des citations inventées ou des signes de contenu d'IA non vérifié.
Steinn Sigurdsson - directeur scientifique d'arXiv, avertit que le trésor de la connaissance scientifique se dilue à cause des recherches de mauvaise qualité ou erronées créées par l'IA.
Selon M. Steinn Sigurdsson, cette situation rend non seulement la recherche d'informations précises plus difficile, mais risque également de conduire les chercheurs dans la mauvaise direction à l'avenir.