arXiv (un archivage de recherche de pré-publications populaire dans des domaines tels que l'informatique, les mathématiques et la physique) renforce les mesures visant à limiter les abus d'intelligence artificielle (IA) dans les articles scientifiques.
La nouvelle initiative intervient dans un contexte de plus en plus d'inquiétudes quant à la qualité des études créées ou trop soutenues par les grands modèles linguistiques (LLM).
arXiv est à l'origine une plateforme populaire permettant aux scientifiques de publier des recherches avant leur évaluation officielle, et est également devenue une source de données importante reflétant les tendances de la recherche mondiale.
Selon Thomas Dietterich - président de la division informatique d'arXiv, si un article montre que l'auteur ne vérifie pas le contenu créé par l'IA, cette plateforme appliquera des mesures de traitement sévères.
Ces preuves peuvent inclure des références inexistantes dues à des "illusions" de l'IA, des dialogues avec des chatbots insérés par erreur dans des articles ou des erreurs indiquant que le contenu est copié directement à partir d'un modèle linguistique sans vérification.
Selon la nouvelle réglementation, les auteurs en infraction peuvent être interdits de publier sur arXiv pendant un an. Après cette période, toute recherche ultérieure souhaitant apparaître sur la plateforme doit d'abord être acceptée par un forum d'évaluation réputé.
Cependant, arXiv souligne qu'il ne s'agit pas d'une interdiction d'utiliser l'IA dans la recherche scientifique. Selon M. Dietterich, les scientifiques peuvent toujours utiliser de grands modèles linguistiques comme outils de soutien, mais doivent être "entièrement responsables" du contenu publié, quelle que soit la manière dont ce contenu est créé.
Cela signifie que si l'auteur copie directement les paragraphes fautifs, le contenu biaisé, les références incorrectes ou les informations induites en erreur de l'IA, il doit toujours assumer la responsabilité comme pour toute autre erreur académique.
M. Dietterich a également déclaré qu'avant de prononcer une sanction, les coordinateurs d'arXiv doivent signaler l'incident et le président spécialisé doit confirmer les preuves de violation. L'auteur poursuivi a toujours le droit de faire appel pour décision.
Ces dernières années, le nombre d'articles de mauvaise qualité apparaissant sur arXiv a eu tendance à augmenter fortement, parallèlement à la popularisation des outils d'IA génératifs. Pour limiter cette situation, la plateforme a exigé que les premières publications soient certifiées par un auteur réputé dans la communauté de la recherche.
Après plus de 20 ans sous la direction de l'université Cornell, arXiv se transforme désormais également en une organisation à but non lucratif indépendante afin de mobiliser davantage de ressources pour améliorer le système de censure et maintenir la qualité académique.
Certaines études critiques récentes montrent que les fausses citations dans le domaine de la biomédecine sont en augmentation, probablement liées à l'abus de modèles d'IA de création de texte. Cela soulève des inquiétudes quant au fait que l'IA pourrait nuire à la fiabilité des travaux scientifiques s'il n'est pas étroitement contrôlé.