Microsoft vient d'annoncer trois nouveaux modèles d'intelligence artificielle de plateforme, dont MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2, marquant une étape importante dans son ambition de construire son propre écosystème d'IA multimétrique.
Il s'agit d'un produit de Microsoft AI, une division de recherche en intelligence artificielle dirigée par le PDG Mustafa Suleyman, créée fin 2025.
Le lancement de ces modèles montre que Microsoft réduit progressivement sa dépendance aux partenaires, tout en concurrençant directement de grands noms tels qu'OpenAI ou Google.
Parmi ceux-ci, MAI-Transcribe-1 est un modèle de conversion vocale en texte, prend en charge jusqu'à 25 langues et est considéré comme 2,5 fois plus rapide que le service Azure Fast actuel.
MAI-Voice-1 se concentre sur la création de son, est capable de créer 60 secondes de voix en une seule seconde et permet de personnaliser la voix en fonction des besoins de l'utilisateur.
Il est à noter que MAI-Image-2 ne se limite pas aux images, mais prend également en charge la création de vidéos, élargissant les capacités d'application de l'IA dans la création de contenu.
Ce modèle a été testé depuis le 19 mars sur MAI Playground, la nouvelle plateforme de test de modèles de Microsoft, avant d'être mis sur l'écosystème Microsoft Foundry.
Actuellement, les trois modèles sont disponibles sur Microsoft Foundry, tandis que les modèles liés à la voix sont également intégrés à MAI Playground pour les tests et le développement.
Selon M. Mustafa Suleyman – PDG de Microsoft AI, la philosophie de développement de Microsoft AI est de mettre l'humain au centre.
Les modèles sont conçus pour optimiser la manière dont les gens communiquent réellement, au lieu de se concentrer uniquement sur les performances techniques. Il a également ajouté que de nombreux nouveaux modèles seront bientôt annoncés et intégrés directement dans les produits de Microsoft.
Un autre point notable est la stratégie de prix. Microsoft a déclaré que les modèles MAI sont moins chers que de nombreux concurrents. Plus précisément, MAI-Transcribe-1 coûte à partir de 0,36 USD par heure, MAI-Voice-1 à partir de 22 USD pour chaque million de caractères, et MAI-Image-2 coûte à partir de 5 USD pour chaque million de tokens d'entrée de texte et 33 USD pour la sortie d'image.
Dans un contexte où le marché des grands modèles linguistiques est de plus en plus concurrentiel, le facteur coût est considéré comme un avantage important pour attirer les entreprises et les développeurs.
Bien qu'elle ait intensifié le développement de ses propres modèles, Microsoft affirme qu'elle continuera à coopérer étroitement avec OpenAI. La société a investi plus de 13 milliards de dollars dans ce partenaire et a intégré de nombreuses technologies d'IA dans son écosystème de produits.
Cependant, les ajustements récents de l'accord de coopération ont ouvert un plus grand espace à Microsoft pour poursuivre des recherches sur l'"hyperintelligence". Cela montre que l'entreprise poursuit une stratégie parallèle en coopérant et en étant technologiquement autonome.