Selon l'annonce du 7 mai, heure locale, les nouveaux modèles intégrés à l'API (interface de programmation d'applications) d'OpenAI permettent aux développeurs de construire des applications qui peuvent chatter, traduire et enregistrer des conversations en direct pendant que l'utilisateur parle. Ceci est considéré comme une étape importante dans la course au développement de l'IA vocale en temps réel.
Le nouveau kit de modèles comprend trois produits principaux: GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper.
Parmi celles-ci, GPT-Realtime-2 intègre la capacité de raisonnement au niveau GPT-5, aidant l'IA à traiter des demandes plus complexes et à maintenir des conversations plus naturelles avec les utilisateurs.
OpenAI a déclaré que ce modèle peut comprendre le contexte de la conversation, s'adapter aux demandes de changement et répondre de manière appropriée à chaque situation.
Le deuxième modèle est GPT-Realtime-Translate, axé sur la traduction vocale directe. Cette technologie prend en charge plus de 70 langues entrantes et environ 13 langues sortantes.
Le point notable est que le système peut traduire presque simultanément avec la parole originale, tout en conservant la vitesse et le rythme naturels de l'orateur.
Pendant ce temps, GPT-Realtime-Whisper est un nouveau modèle de conversion vocale en texte en ligne, capable d'enregistrer des paroles en direct pendant une conversation.
OpenAI estime que l'IA vocale est actuellement l'une des interactions les plus courantes entre les humains et les logiciels.
Cependant, la construction de produits vocaux réels reste très complexe car l'IA doit non seulement écouter et comprendre, mais aussi suivre le contexte, utiliser les outils appropriés et répondre au bon moment.
Les nouveaux modèles permettront au son en temps réel de dépasser la simple forme de questions-réponses pour devenir une interface vocale capable d'écouter, de raisonner, de traduire, d'enregistrer et d'agir pendant la conversation", a déclaré OpenAI sur son blog officiel.
L'entreprise espère que les nouvelles technologies soutiendront fortement les entreprises qui souhaitent étendre leurs services de service à la clientèle automatisés.
En outre, l'IA vocale en temps réel peut également être appliquée dans de nombreux domaines tels que l'éducation, les médias, l'organisation d'événements et les plateformes de création de contenu.
Dans les pays multilingues comme l'Inde, la technologie de traduction directe est particulièrement utile. Les nouveaux modèles permettent à plusieurs personnes d'utiliser différentes langues lors d'une conversation, tout en écoutant la traduction en temps réel et en suivant l'enregistrement de texte en direct.
Prateek Sachan, cofondateur et directeur de la technologie de BolnaAI (une société technologique spécialisée dans le développement de plateformes d'IA vocales pour les entreprises en Inde), a déclaré que GPT-Realtime-Translate atteint un taux d'erreur 12,5% inférieur à de nombreux autres modèles que la société a testés dans des langues telles que l'hindi, le tamoul et le télougou.
Selon M. Sachan, la nouvelle technologie d'OpenAI établit une nouvelle norme pour l'IA vocale multilingue, en particulier sur les marchés dotés de systèmes de phonologie et d'accents locaux complexes.