
La solution qui merite d'etre prise en compte est de creer un environnement - un espace de simulation pour que l'acteur de l'IA pratique des taches en plusieurs etapes appelees apprentissage accru (RL). Semblable a la façon dont les donnees etiquetees ont stimule l'ere des chatbots l'environnement RL devient un facteur important pour la nouvelle generation d'IA.
Les fonds de capital-risque les startups et les laboratoires d'IA se lancent dans cette course. Andreessen Horowitz estime que tous les grands laboratoires construisent un environnement RL interne tout en recherchant des partenaires externes.
De nombreuses nouvelles entreprises telles que Mechanize et Prime Intellect ont fait appel a des capitaux importants pour developper des plateformes environnementales tandis que les geants du big data tels que Scale AI Surge et Mercor ont egalement change de direction d'investissement pour ne pas etre laisses pour compte.
Certaines transactions montrent la chaleur de la tendance : Anthropic envisage de depenser plus d'un milliard de dollars pour l'environnement RL ; Surge a realise un chiffre d'affaires de 1 2 milliard de dollars l'annee derniere grace a sa cooperation avec OpenAI Google et Meta ; Mercor - evalue a 10 milliards de dollars.
La nature de l'environnement RL est de simuler la façon dont l'IA manipule les logiciels par exemple un acteur est invite a acheter sur Amazon et est recompense par les resultats. Le travail semble simple mais necessite un environnement suffisamment sophistique pour enregistrer meme les comportements inattendus. C'est ce qui rend l'environnement RL plus complexe et plus coûteux que les donnees statiques.
Alors que les opportunites d'expansion de RL sont encore controversees la Silicon Valley considere toujours cela comme l'une des orientations importantes pour promouvoir les progres de l'IA dans l'espoir de reproduire la vague de donnees etiquetees qui a cree ChatGPT.