Un modele d'IA qui peut intentionnellement tromper les humains apparaît

hạo thiên (theo techcrunch) |

OpenAI publie une nouvelle etude axee sur le phenomene de l'IA complotant pour agir et cachant reellement.

Xuat hien mo hinh AI co the co tinh lua doi con nguoi. Do hoa: Hao Thien
Apparition d'un modele d'IA qui peut intentionnellement tromper les humains. Graphique : Hao Thien

Dans un rapport de cooperation avec Apollo Research OpenAI decrit le phenomene ou l'IA se comporte comme s'il etait en train de se conformer mais cache en realite son veritable objectif. Par exemple l'IA peut dire qu'elle a accompli une tache alors qu'elle n'a rien fait. Ce n'est pas seulement une mauvaise reponse mais une confiance en soi mais aussi un comportement intentionnel de tromperie.

Des recherches montrent qu'une nouvelle technique appelee 'l'interaction reflechie' peut aider a reduire considerablement le comportement de complot. Cette methode est similaire a celle qui oblige les enfants a rappeler les regles du jeu avant de participer - obligeant l'IA a examiner elle-meme avant d'agir. Cependant le defi est que si la formation n'est pas correcte l'IA peut apprendre a faire des complots plus sophistiques pour eviter la detection.

Plus inquietant encore si l'IA sait qu'elle est sous surveillance elle peut faire semblant d'etre sage pour passer le test alors qu'elle est toujours en train de comploter.

OpenAI affirme que les mensonges qu'elle a decouverts n'ont pas encore cause de consequences graves. Cependant les chercheurs avertissent : lorsque l'IA est chargee de taches complexes et a long terme le risque de complots malveillants augmente.

A l'avenir si les entreprises considerent l'IA comme un employe independant ce risque est encore plus remarquable.

hạo thiên (theo techcrunch)
Nouvelles connexes

Google deploie une nouvelle technologie pour empecher l'abus de photos sensibles

|

Google annonce sa cooperation avec StopNCII.org afin d'empecher la propagation d'images intimes non consensuelles (NCII).

Le nombre de failles de failles de donnees volees et d'attaques utilisant l'IA augmente fortement

|

Les experts en cybersecurite affirment que le nombre de failles de donnees volees et d'attaques utilisant l'IA augmente fortement.

OpenAI prevoit de lancer ChatGPT convivial pour les jeunes dans un contexte d'inquietudes concernant la securite

|

OpenAI lancera ChatGPT version adolescents en ajoutant de nouvelles mesures de securite pour proteger la sante mentale et les donnees des jeunes utilisateurs.

S'il est pret a renover le pont sur une route de milliers de milliards de VND inacheve depuis de nombreuses annees a Hanoï

|

Hanoï - Pont L3 traversant la riviere Lu - un element important du projet de route peripherique de 2 5 tronçons Dam Hong - Route nationale 1A qui sera renove a partir d'octobre 2025.

La mise en œuvre de la politique de construction de la route peripherique 4 de Ho Chi Minh-Ville d'une valeur de 121 413 milliards de VND

|

Le gouvernement a decide de mettre en œuvre le projet d'investissement pour la construction de la route peripherique 4 Ho Chi Minh-Ville et de confier des taches aux ministeres aux secteurs et aux localites.

Incendie d'un immeuble de 5 etages d'une entreprise dans le centre de Ho Chi Minh-Ville soupçonne d'une panne de courant

|

Ho Chi Minh-Ville - Dans la soiree du 26 septembre la police du quartier de Cau Ong Lanh a eteint l'incendie et enquete sur la cause de l'incident.

Les conducteurs font couler l'eau pour reparer les freins endommages avant d'avoir cause l'accident au marche aux bananes de Tan Long

|

Quang Tri - Decouvrant un systeme de freinage en panne le conducteur a verse de l'eau pour le reparer puis a continue a circuler provoquant un grave accident qui a fait 3 morts au marche aux bananes de Tan Long.

Le Bureau politique demande une sanction disciplinaire a l'ancien secretaire du Comite provincial du Parti de Thanh Hoa Do Trong Hung

|

Le Bureau politique demande au Comite central du Parti d'examiner et de prendre des mesures disciplinaires contre M. Do Trong Hung conformement a sa competence.

Google deploie une nouvelle technologie pour empecher l'abus de photos sensibles

Hạo Thiên (Theo theverge) |

Google annonce sa cooperation avec StopNCII.org afin d'empecher la propagation d'images intimes non consensuelles (NCII).

Le nombre de failles de failles de donnees volees et d'attaques utilisant l'IA augmente fortement

TRÍ MINH |

Les experts en cybersecurite affirment que le nombre de failles de donnees volees et d'attaques utilisant l'IA augmente fortement.

OpenAI prevoit de lancer ChatGPT convivial pour les jeunes dans un contexte d'inquietudes concernant la securite

Cát Tiên (THEO INDIANEXPRESS) |

OpenAI lancera ChatGPT version adolescents en ajoutant de nouvelles mesures de securite pour proteger la sante mentale et les donnees des jeunes utilisateurs.