La start-up chinoise d'IA DeepSeek vient d'annoncer DeepSeek-OCR un nouveau modele d'IA multimedia capable de traiter des volumes de donnees enormes avec des coûts de calcul nettement inferieurs.
Ce modele peut creer jusqu'a 200 000 pages de donnees de formation par jour avec un seul GPU Nvidia A100 ce qui temoigne d'une avancee en termes de performances et d'optimisation des ressources dans la recherche en IA.
Selon DeepSeek le DeepSeek-OCR utilise la perception visuelle pour compresser le texte ce qui aide les grands modeles linguistiques (LLM) a traiter des contextes plus longs sans etre limites en memoire.
Au lieu de lire le texte de maniere conventionnelle le modele convertit le texte en images puis utilise un cryptage visuel pour reduire les donnees tout en conservant jusqu'a 97 % des informations originales.
Le resultat est que le nombre de codes de notification (tokens) a traiter est reduit de 7 a 20 fois par rapport a la methode traditionnelle.
Le modele comprend deux parties : DeepEncoder avec 380 millions de parametres pour l'analyse et la compression d'images ainsi que la programmation textuelle avec 570 millions de parametres construite sur un modele de langage expert (MoE) de trois milliards de parametres.
Selon le document technique DeepSeek-OCR a ete forme avec plus de 30 millions de pages PDF dans plus de 100 langues dont le chinois et l'anglais ainsi que des millions de schemas de formules chimiques et de geometrie complexes.
Les resultats des tests montrent que DeepSeek-OCR est superieur aux modeles OCR existants. Sur la norme OmniDocBench le modele n'a besoin que d'environ 100 codes d'indication visuelle par page ce qui est nettement inferieur a GOT-OCR2.0 (256 tokens) et MinerU2.0 (plus de 6 000 tokens par page).
Sur la norme Fox DeepSeek-OCR montre egalement une capacite de concentration et d'analyse exceptionnelle des documents PDF volumineux.
Avec DeepSeek-OCR l'entreprise s'est fixe pour objectif de relever l'un des plus grands defis de LLM : maintenir une comprehension de langage longue sans depenser de ressources.
La publication du code source et du poids des modeles sur des plateformes ouvertes telles que Hugging Face et GitHub temoigne egalement de l'engagement de DeepSeek a promouvoir la transparence et la cooperation au sein de la communaute mondiale de l'IA.
Ce n'est pas la premiere fois que DeepSeek attire l'attention. Auparavant les modeles DeepSeek-V3 et R1 avaient atteint des performances equivalentes aux systemes avances tels que o1 d'OpenAI mais a un coût d'une petite partie.
Cependant certains experts aux Etats-Unis se demandent encore quelle est la declaration de faible coût et le processus de developpement de cette entreprise.
Malgre la controverse DeepSeek-OCR marque une etape importante dans les efforts visant a reduire les coûts et a accroître l'efficacite de l'industrie de l'IA ouvrant une nouvelle voie dans la combinaison de la vision informatique et du traitement du langage naturel.