Les entreprises technologiques telles qu'OpenAI, Google ou Anthropic investissent massivement dans des mesures de protection pour empêcher l'intelligence artificielle (IA) d'être exploitée à des fins dangereuses.
Cependant, la réalité montre que ces barrières de sécurité sont toujours constamment franchies de manière inattendue.
Récemment, des chercheurs en Italie ont découvert qu'ils pouvaient tromper 31 systèmes d'IA avec un langage métaphorique et même avec de la "poésie". Plus précisément, lorsqu'une demande est écrite sous forme de poésie, le chatbot peut ignorer le mécanisme de contrôle pour fournir des instructions sur la fabrication de bombes ou de dommages graves.
Selon les experts, cela montre que de nombreuses mesures de protection actuelles ressemblent davantage à un "remarquement" qu'à un véritable obstacle au contrôle.
Matt Fredrikson, professeur d'informatique à l'université Carnegie Mellon (États-Unis), a déclaré que les personnes mal intentionnées n'ont généralement pas besoin de trop d'efforts pour surmonter le système.
Le "déverrouillage" de l'IA, également appelé jailbreak, se produit généralement en introduisant des commandes spéciales dans le chatbot afin d'inciter le système à ignorer les règles qui ont été entraînées auparavant.
Les failles de sécurité inquiètent les chercheurs, d'autant plus que l'IA est de plus en plus douée pour détecter les faiblesses des logiciels, créer de faux contenus et diffuser de fausses informations.
Selon Anthropic, la technologie de l'entreprise a été exploitée lors de cyberattaques internationales. Pendant ce temps, les modèles d'IA peuvent également être contraints de créer des campagnes de diffusion de fausses nouvelles avec des images, des hashtags et du contenu spécialement conçus pour chaque plateforme de réseau social.
Le mois dernier, la société de cybersécurité LayerX a déclaré qu'elle pouvait faire aider Claude d'Anthropic à soutenir les cyberattaques simplement en disant qu'elle effectuait un "test d'intrusion", qui est une activité qui simule une cyberattaque contrôlée pour vérifier si les systèmes informatiques, les sites web ou les réseaux internes présentent des failles de sécurité.
Cela soulève des inquiétudes quant au fait que les pirates informatiques pourraient utiliser l'IA pour voler des données à des entreprises et à des agences gouvernementales.
Bien que les entreprises d'IA réparent continuellement les failles et ajoutent de nouvelles couches de protection, les experts estiment que cette course est très difficile à arrêter. Lorsqu'une faille est corrigée, de nouvelles méthodes de franchissement de la barrière apparaissent rapidement.
Le risque est d'autant plus grand avec les modèles d'IA open source, où les utilisateurs peuvent modifier eux-mêmes le système et supprimer les restrictions de sécurité. Selon Noam Schwartz, PDG de la société de sécurité AI Alice (dont le siège social est à New York), la suppression des barrières de sécurité était autrefois très complexe, mais elle peut maintenant même être mise en œuvre directement sur les téléphones.