Un modele d'IA qui peut intentionnellement tromper les humains apparaît

hạo thiên (theo techcrunch) | 19/09/2025 08:05

OpenAI publie une nouvelle etude axee sur le phenomene de l'IA complotant pour agir et cachant reellement.

Xuat hien mo hinh AI co the co tinh lua doi con nguoi. Do hoa: Hao Thien — Apparition d'un modele d'IA qui peut intentionnellement tromper les humains. Graphique : Hao Thien

Dans un rapport de cooperation avec Apollo Research OpenAI decrit le phenomene ou l'IA se comporte comme s'il etait en train de se conformer mais cache en realite son veritable objectif. Par exemple l'IA peut dire qu'elle a accompli une tache alors qu'elle n'a rien fait. Ce n'est pas seulement une mauvaise reponse mais une confiance en soi mais aussi un comportement intentionnel de tromperie.

Des recherches montrent qu'une nouvelle technique appelee 'l'interaction reflechie' peut aider a reduire considerablement le comportement de complot. Cette methode est similaire a celle qui oblige les enfants a rappeler les regles du jeu avant de participer - obligeant l'IA a examiner elle-meme avant d'agir. Cependant le defi est que si la formation n'est pas correcte l'IA peut apprendre a faire des complots plus sophistiques pour eviter la detection.

Plus inquietant encore si l'IA sait qu'elle est sous surveillance elle peut faire semblant d'etre sage pour passer le test alors qu'elle est toujours en train de comploter.

OpenAI affirme que les mensonges qu'elle a decouverts n'ont pas encore cause de consequences graves. Cependant les chercheurs avertissent : lorsque l'IA est chargee de taches complexes et a long terme le risque de complots malveillants augmente.

A l'avenir si les entreprises considerent l'IA comme un employe independant ce risque est encore plus remarquable.

hạo thiên (theo techcrunch)

#OMS

Medias

Societe

Entreprise

Les actualites

Le Syndicat

Le monde

Immobilier

La sante

Jeu de sport

Culture - Divertissement

La Voiture +

Cessez de voir la nouvelle interface

Un modele d'IA qui peut intentionnellement tromper les humains apparaît

Google deploie une nouvelle technologie pour empecher l'abus de photos sensibles

Le nombre de failles de failles de donnees volees et d'attaques utilisant l'IA augmente fortement

OpenAI prevoit de lancer ChatGPT convivial pour les jeunes dans un contexte d'inquietudes concernant la securite

S'il est pret a renover le pont sur une route de milliers de milliards de VND inacheve depuis de nombreuses annees a Hanoï

La mise en œuvre de la politique de construction de la route peripherique 4 de Ho Chi Minh-Ville d'une valeur de 121 413 milliards de VND

Incendie d'un immeuble de 5 etages d'une entreprise dans le centre de Ho Chi Minh-Ville soupçonne d'une panne de courant

Les conducteurs font couler l'eau pour reparer les freins endommages avant d'avoir cause l'accident au marche aux bananes de Tan Long

Le Bureau politique demande une sanction disciplinaire a l'ancien secretaire du Comite provincial du Parti de Thanh Hoa Do Trong Hung

Google deploie une nouvelle technologie pour empecher l'abus de photos sensibles

Le nombre de failles de failles de donnees volees et d'attaques utilisant l'IA augmente fortement

OpenAI prevoit de lancer ChatGPT convivial pour les jeunes dans un contexte d'inquietudes concernant la securite

AGENCY OF VIETNAM GENERAL CONFEDERATION OF LABOUR

Contact:

Advertising Support