Microsoft vient d'annoncer le Fara-7B le premier modèle d'IA compact de l'entreprise capable d'utiliser un ordinateur humain à l'aide d'une seule capture d'écran.
Contrairement aux systèmes d'agents complexes dépendants de grandes infrastructures cloud le Fara-7B est conçu pour fonctionner directement sur l'appareil ce qui contribue à réduire les retards à accroître la confidentialité et à ouvrir une toute nouvelle façon d'interagir avec les PC.
Fara-7B appartient au groupe de micro-logiciels (SLM) que Microsoft poursuit depuis l'année dernière en poursuivant la gamme Phi intégrée à Windows 11.
Cependant la Fara 7B est une avancée plus importante car elle est conçue comme un agent d'utilisation de l'ordinateur (CUA) un modèle capable de comprendre l'interface de l'ordinateur d'analyser les images d'écran et de réaliser des actions réelles telles que cliquer pour saisir du texte ou naviguer sur le Web.
Grâce à cela les utilisateurs peuvent confier au modèle le traitement d'une série de tâches courantes sans intervention manuelle.
Le point particulier du Fara-7B est sa simplicité. La plupart des modèles CUA actuels ont besoin d'un grand système de serveurs cloud de nombreux systèmes connexes et d'une puissance de calcul énorme uniquement pour analyser les écrans.
Microsoft a déclaré que le Fara-7B n'est qu'un seul modèle non dépendant d'un modèle auxiliaire ou d'un pipeline complexe mais qu'il atteint toujours des performances comparables à celles des cibles d'IA à grande échelle.
Avec une taille de 7 milliards de paramètres le modèle peut fonctionner directement sur un PC personnel tout en garantissant que les données des utilisateurs ne doivent pas être envoyées dans le cloud.
Pour former Fara-7B Microsoft a mis au point le système de données compilées FaraGen où les agents de l'IA simulent le comportement humain sur plus de 70 000 noms de domaine réels.
Chaque séance de travail comprend de nombreuses étapes telles que l'essai le retournement de situation la recherche le traitement des erreurs et est évaluée indépendamment par trois modèles d'IA indépendants garantissant l'adéquation.
Après le processus de filtrage plus de 145 000 sessions avec plus d'un million d'actions ont été conservées pour la formation du modèle.
Les performances réelles montrent que le Fara-7B consomme environ 124 000 tokens d'entrée et 1 100 tokens d'entrée pour chaque tâche.
Le score standard du modèle est également impressionnant avec 73 % sur Web Voyager 34 % sur OnlineMind 2 Web 26 % sur DeepShop et 38 4 % sur WebTailBench se concentrant sur des tâches réelles telles que trouver un emploi ou rechercher de l'immobilier.
Fara-7B est actuellement disponible sur Microsoft Foundry et Hugging Face sous licence MIT. Microsoft a également publié la numérisation optimale pour PC Copilot+ exécutant Windows 11 permettant à la communauté de tester directement.
Avec son ouverture et sa capacité à fonctionner localement le Fara-7B promet de devenir une plateforme pour promouvoir la vague de développement d'agents d'IA automatisant les tâches quotidiennes.