Le pionnier de l'intelligence artificielle Andrew Ng (cofondateur de Coursera, professeur invite en informatique a l'universite de Stanford) vient de proposer une nouvelle norme d'evaluation appelee "Turing-AGI", dans le but d'eliminer les declarations exagerees et les abus du concept d'intelligence artificielle globale (AGI) qui se repandent dans l'industrie technologique.
Le cofondateur de Coursera estime qu'AGI reste aujourd'hui un terme vague, manquant de definition precise et est utilise par de nombreuses entreprises comme outil de marketing.
Selon M. Andrew Ng, cela amene le public, les investisseurs et meme les decideurs politiques a mal comprendre la capacite reelle des systemes d'IA modernes.
M. Andrew Ng a suggere que le test Turing-AGI ne repose pas seulement sur la capacite de conversation comme le test Turing traditionnel. Au lieu de cela, un systeme d'IA et une personne competente utilisent ensemble un ordinateur connecte a Internet avec des logiciels courants tels que des navigateurs Web, des e-mails ou Zoom pour effectuer une serie de taches de travail reelles pendant plusieurs jours.
Par exemple, l'IA peut devoir assumer le role d'un agent de centre d'appels, traitant les appels, les e-mails et les situations qui se presentent comme un veritable travailleur.
Un systeme reussit le test Turing-AGI s'il peut bien faire son travail comme une personne competente", a souligne Andrew Ng.
Selon lui, si l'IA atteint reellement un niveau d'intelligence comparable a celui des humains, l'accomplissement des taches de travail courantes sera inevitable, et ne se limitera pas au dialogue ecrit.
Andrew Ng a egalement souligne les limites du test Turing d'origine, qui exigeait que l'ordinateur trompe le notaire lors d'une conversation. M. Andrew Ng a declare que la capacite de "jouer un role humain" dans la conversation n'etait pas suffisante pour prouver l'intelligence au niveau humain, et encore moins pour representer l'AGI.
Cette proposition a ete faite dans un contexte de debats de plus en plus feroces sur l'AGI entre les chercheurs et les dirigeants technologiques.
A la fin de l'annee derniere, Yann LeCun et le PDG de Google DeepMind, Demis Hassabis, ont publiquement exprime leur desaccord sur la question de savoir si l'intelligence humaine est globale ou specialisee. Ce debat a egalement attire l'attention d'Elon Musk, qui soutient publiquement le point de vue de Hassabis.

M. Andrew Ng estime que le manque d'une norme claire sur l'AGI ne provoque pas seulement une confusion academique, mais cree egalement des consequences sociales. Il a egalement averti que les eleves peuvent eviter les domaines de recherche importants parce qu'ils pensent que l'AGI est sur le point d'apparaître, tandis que les PDG peuvent prendre de mauvaises decisions d'investissement en surestimant les capacites de l'IA a court terme.
En outre, il a egalement critique les ensembles d'evaluation d'IA fixes tels que GPQA, AIME ou SWE-bench. Selon Ng, les modeles peuvent etre "traites a l'envers" pour surmonter les tests publies, tandis que ces ensembles de donnees ne mesurent qu'une tres petite partie de l'intelligence.
Inversement, le test Turing-AGI permet aux examinateurs de concevoir des scenarios totalement nouveaux, sans preavis, afin de tester le niveau reel de « generalisation » de l'IA.
Selon Andrew Ng, cette approche aidera la societe a reajuster ses attentes, a reduire le risque de bulle d'IA et a creer une base plus durable pour les investissements a long terme.
Si une entreprise reussit le test Turing-AGI, elle creera une valeur reelle, et pas seulement un communique de presse", a affirme M. Andrew Ng.