Google vient d'annoncer VaultGemma un modele d'IA de nouvelle generation specialement conçu pour proteger la vie privee les donnees et prevenir le risque de fuite pendant la formation.
Il s'agit de la prochaine tentative du geant de la technologie dans un contexte ou les grands modeles linguistiques (LLM) sont constamment remis en question quant a leur capacite a stocker et a reproduire des informations sensibles.
VaultGemma a ete developpe des le depart avec un mecanisme de confidentialite distincte (Differential Privacy – DP) qui permet au modele de ne pas memoriser et de regenerer les donnees de formation originales.
Selon Google il s'agit du plus grand modele de langage ouvert jamais forme par DP avec une echelle de 1 milliard de parametres marquant une etape importante dans la construction d'IA privee selon la conception.
En particulier le poids de VaultGemma a ete publie gratuitement sur des plateformes telles que Hugging Face et Kaggle ouvrant des opportunites a la communaute de recherche et de developpement d'IA pour l'exploration et les tests.
Google a declare avoir coopere etroitement avec DeepMind pour etablir de nouvelles regles elargies pour la formation afin d'equilibrer trois facteurs notamment la confidentialite l'efficacite et les coûts de calcul.
Au cours des dernieres annees les experts ont continuellement mis en garde contre le risque de fuite de donnees de LLM.
En envoyant le bon rappel l'agresseur peut forcer le modele a divulguer des informations sensibles.
Un exemple typique est le proces entre le New York Times et OpenAI dans lequel la redaction accuse ChatGPT de reediter l'integralite de certains de ses articles.
Au lieu d'appliquer uniquement des mesures de protection de la vie privee au niveau des utilisateurs comme d'habitude Google a integre des droits de confidentialite distincts (DP) tout au long du processus de formation en ajoutant des couches d'intimidation pour empecher le modele de memorisation et de replication des donnees originales.
Cependant cette solution pose egalement des defis car le processus d'entraînement est moins stable la taille des lots doit etre augmentee et les coûts de calcul sont plus eleves.
Malgre les echanges Google affirme que sa decouverte importante est qu'il est possible de former un modele plus petit mais plus efficace lorsqu'il est applique a grande echelle dans un environnement DP.
Avec VaultGemma Google espere etablir de nouvelles normes pour l'industrie de l'IA non seulement fortes mais aussi sûres et respectueuses de la vie privee des utilisateurs des la plateforme.