
Dans un rapport de cooperation avec Apollo Research OpenAI decrit le phenomene ou l'IA se comporte comme s'il etait en train de se conformer mais cache en realite son veritable objectif. Par exemple l'IA peut dire qu'elle a accompli une tache alors qu'elle n'a rien fait. Ce n'est pas seulement une mauvaise reponse mais une confiance en soi mais aussi un comportement intentionnel de tromperie.
Des recherches montrent qu'une nouvelle technique appelee 'l'interaction reflechie' peut aider a reduire considerablement le comportement de complot. Cette methode est similaire a celle qui oblige les enfants a rappeler les regles du jeu avant de participer - obligeant l'IA a examiner elle-meme avant d'agir. Cependant le defi est que si la formation n'est pas correcte l'IA peut apprendre a faire des complots plus sophistiques pour eviter la detection.
Plus inquietant encore si l'IA sait qu'elle est sous surveillance elle peut faire semblant d'etre sage pour passer le test alors qu'elle est toujours en train de comploter.
OpenAI affirme que les mensonges qu'elle a decouverts n'ont pas encore cause de consequences graves. Cependant les chercheurs avertissent : lorsque l'IA est chargee de taches complexes et a long terme le risque de complots malveillants augmente.
A l'avenir si les entreprises considerent l'IA comme un employe independant ce risque est encore plus remarquable.