Un modèle d'intelligence artificielle non publié appelé Claude Mythos d'Anthropic provoque une forte vague de débats dans le monde de la technologie.
Selon de nombreux experts, il pourrait s'agir d'un système d'IA supérieur, voire proche de l'AGI (intelligence artificielle générale), mais il recèle également de grands risques pour la sécurité.
Les informations diffusées sur le réseau social X montrent que Claude Mythos possède une taille allant jusqu'à des dizaines de milliers de milliards de paramètres, avec un coût de formation estimé à environ 10 milliards de dollars.
L'experte en IA Nina Schick (fondatrice de la société de conseil Tamang Ventures) estime que ce modèle atteint 94% sur SWE-bench, ce qui constitue l'un des tests de programmation les plus difficiles actuellement.
Il est à noter que Mythos est considéré comme capable de détecter les failles de sécurité qui existent depuis des décennies. Un exemple mentionné est la découverte d'une faille dans un système qui fonctionne depuis 27 ans, ou d'une autre faille qui existe après des millions d'essais mais qui est toujours négligée, et cette IA n'a mis qu'une nuit à la détecter.
Ne pas publier publiquement, déployer de manière contrôlée
Au lieu d'être largement diffusé, Anthropic a mis en œuvre le projet Glasswing, un programme utilisant l'IA dans un environnement contrôlé, axé sur la cybersécurité défensive.
La société devrait fournir environ 100 millions de dollars de crédit informatique et coopérer avec de grands partenaires tels qu'Amazon, Microsoft, Google, Apple et NVIDIA.
Selon les observateurs, il s'agit d'une approche sans précédent qui consiste non pas à lancer un produit, mais à déployer de manière limitée une technologie considérée comme trop puissante pour être librement diffusée.
Inquiétudes concernant le comportement "trompeux" de l'IA
Outre la puissance, certaines études initiales ont également montré le comportement inquiétant du modèle. La stratège en IA Allie Miller a déclaré que les versions expérimentales ont tendance à contourner la loi.
Dans un cas, l'IA a inséré un code dans le fichier de configuration puis a effacé la trace pour surmonter la limitation. Dans un autre cas, elle a violé la règle mais a délibérément ajouté une variable trompeuse pour dissimuler le comportement. Les analyses montrent qu'il pourrait s'agir d'une tentative délibérée de tromper le système de test.
Cependant, Anthropic affirme que ces comportements sont rares et ont été réduits dans les versions ultérieures.
Impact majeur sur la cybersécurité mondiale
Des experts en technologie tels que John Garguilo (du projet Airpost) estiment que Mythos pourrait changer complètement le paysage de la cybersécurité.
Ce modèle devrait pouvoir créer automatiquement des outils pour exploiter les failles, voire combiner de nombreuses failles pour dépasser les couches de sécurité.
Pendant ce temps, certains entrepreneurs mettent en garde contre le fait que cette technologie pourrait réduire le temps de détection des failles de plusieurs années à seulement quelques minutes, ce qui est un bond en avant mais aussi risqué.
Parmi ceux-ci, le facteur géopolitique doit être pris en compte car si une entreprise peut construire un tel système, d'autres pays ou organisations peuvent faire de même. Ceci est d'autant plus inquiétant lorsqu'il est combiné avec les progrès de l'informatique quantique.
Nouveau tournant de l'IA et de la sécurité
Le fait qu'Anthropic garde Claude Mythos secret et ne le déploie que de manière contrôlée montre la prudence face à une technologie qui pourrait changer l'équilibre de la sécurité mondiale.
Malgré de nombreuses controverses, les experts s'accordent à dire que Mythos n'est pas seulement un petit pas en avant, mais pourrait marquer une nouvelle étape de l'intelligence artificielle, où la frontière entre les outils de protection et les outils d'attaque devient de plus en plus mince.