Les chatbots d'IA tels que ChatGPT Gemini et Claude deviennent des outils populaires dans la vie numerique. Cependant les utilisateurs remarquent souvent un phenomene etrange : apres un certain temps de conversation ces modeles semblent 'perdre de la memoire' et oublier ce que vous venez de dire ou commencent a repeter des reponses erronees.
Sur cette question selon les experts en technologie elle decoule d'un concept technique cle appele fenetre contextuelle.
Le YouTuber et chercheur en IA Matt Pocock a recemment partage dans sa video que la fenetre contextuelle est une limite importante mais aussi la plus facile a mal interpreter dans la façon dont fonctionnent les grands modeles linguistiques (LLM). En termes simples c'est la « memoire a court terme » de l'intelligence artificielle.
Quelle est la fenetre contextuelle?
Chaque fois que les utilisateurs envoient des questions et un modele de reponse tout le texte sera divise en petites unites appelees tokens. Chaque token peut representer quelques caracteres ou une partie du mot. Tous les tokens de la conversation creeront un contexte que le modele peut voir a un moment donne.
Si la fenetre contextuelle d'un modele est de 200 000 tokens il ne peut enregistrer que cette quantite d'informations. En depassant cette limite les donnees plus anciennes seront progressivement supprimees ce qui empeche l'IA d'oublier la premiere partie de la conversation.
Par exemple Claude 4.5 peut memoriser jusqu'a 200 000 tokens tandis que Gemini 2.5 Pro peut traiter jusqu'a 2 millions. Inversement de petits modeles comme LLaMA ou Mistral ne sont limites qu'a quelques milliers.
Pourquoi l'IA ne peut-elle pas avoir une memoire infinie?
Augmenter la taille des fenetres contextuelles n'est pas toujours faisable. Chaque token supplementaire consomme des ressources de calcul et de memoire ce qui augmente les coûts d'exploitation.
De plus lorsque le contexte est trop vaste il est difficile pour le modele de trouver les details necessaires comme le mo kim day be.
Plus important encore chaque modele est conçu avec des limites architecturales fixes il ne peut donc pas se contenter d'etendre infiniment la memoire sans sacrifier les performances.
Fou au milieu : Quand l'IA oublie le milieu de l'histoire
Pocock a qualifie un phenomene caracteristique de la limite du contexte de'midpoint forgetting' provisoirement traduit par 'oublier au milieu'.
L'IA se concentre generalement sur la premiere partie (guide) et la derniere partie (le dernier message) de la conversation tandis que la partie centrale est moins remarquee.
Ce mecanisme decoule de la façon dont les modeles LLM repartissent l'attention sur les tokens. Comme les humains ils privilegient ce qui se passe plus recemment. En consequence les informations au milieu bien que importantes sont facilement oubliees.
Cela rend particulierement difficile pour les programmeurs. Si un developpeur grace a l'IA corrige une erreur dans le code d'il y a quelques centaines de lignes le modele ne peut pas se souvenir exactement de cette partie car elle a glisse hors de portee de l'attention.
Un impact sur les outils d'IA de programmation
Des outils tels que Claude Code ou GitHub Copilot fonctionnent egalement dans les limites de la fenetre contextuelle. Lorsque le projet ou la session de travail est trop long ils sont susceptibles de rencontrer des erreurs d'oubli de commandes de mauvaises reponses ou d'arreter de repondre.
Par consequent les utilisateurs professionnels doivent souvent diviser resumer ou reorganiser les seances de travail pour aider l'IA a rester concentree.
L'oubli des chatbots tels que ChatGPT ou Gemini n'est pas une erreur de systeme mais une limite naturelle de la technologie actuelle.
Alors que les entreprises technologiques continuent d'elargir les fenetres de contexte et d'optimiser la capacite de memorisation l'avenir pourrait etre temoin de modeles d'IA qui memorisent plus longtemps comprennent plus profondement et se rapprochent d'une veritable intelligence artificielle.