Le 29 septembre (heure americaine) un groupe de recherche de DeepSeek a annonce un nouveau modele experimental appele V3.2-exp conçu pour reduire considerablement les coûts de raisonnement dans les taches de langage long. Ce modele a ete presente sur la plateforme Hugging Face accompagne d'un article educatif partage publiquement sur GitHub.
Le point fort de V3.2-exp reside dans le mecanisme DeepSeek Sparse Attention (un systeme d'attention rudimentaire). Au lieu de traiter toutes les donnees ce systeme utilise un module appele 'parametres de sequence' pour donner la priorite a la extraction des passages de texte importants dans la fenetre contextuelle.
Ensuite un autre module appele'systeme de selection de code de notification detaille' selectionnera les tokens importants a inclure dans la fenetre d'attention limitee. Cette approche permet de reduire la charge du serveur tout en conservant la capacite de traiter les longs sequences de contexte.
Selon les tests initiaux DeepSeek a declare que le coût d'execution d'une commande API peut etre reduit jusqu'a 50 % dans les situations necessitant un contexte large.
Bien qu'il faille plus d'evaluations independantes pour l'authentification la divulgation du modele sur Hugging Face ouvrira bientot la voie aux tiers pour les tests et les verifications.
Le lancement du V3.2-exp poursuit la serie d'efforts visant a resoudre le probleme du coût de l'analytique qui est l'un des plus grands defis dans l'exploitation du modele d'IA.
Contrairement aux coûts de formation initiaux les coûts de raisonnement sont directement lies a l'infrastructure serveur pour servir les utilisateurs et constituent toujours un fardeau important pour les entreprises qui deploient l'IA.
DeepSeek une societe basee en Chine qui a attire l'attention au debut de l'annee avec le modele R1 est principalement forme par des cours intensifs a faible coût. Cependant R1 n'a pas cree la revolution escomptee et l'interet pour DeepSeek a progressivement diminue ces derniers mois.
Cependant avec ce nouveau mecanisme DeepSeek montre une nouvelle approche pour optimiser l'architecture de transformation. Cette solution n'est peut-etre pas aussi bruyante que R1 mais elle est consideree comme apportant des leçons pratiques en particulier aux fournisseurs de services d'IA aux Etats-Unis dans un contexte ou la necessite de reduire les coûts de raisonnement devient de plus en plus urgente.