En bref
La fenêtre de contexte, c’est la quantité maximale de texte qu’un modèle de langage peut lire et utiliser en une seule fois. Elle inclut ce que vous lui envoyez — vos questions, vos documents, l’historique de la conversation — et ce qu’il génère en réponse. Quand cette limite est atteinte, des informations disparaissent. En cinq ans, cette limite est passée de 2 000 à plusieurs millions de tokens, mais avoir une grande fenêtre ne suffit pas : les modèles n’en exploitent pas chaque partie avec la même attention.
Explication
Ce que c’est
Imaginez que le modèle soit un expert qui ne peut lire qu’un certain nombre de pages à la fois. Vous pouvez lui poser des questions sur n’importe quel sujet — mais uniquement sur ce qui est dans ces pages. Quand vous ajoutez de nouvelles pages, les premières sortent de la pile. Le modèle ne les a pas “oubliées” au sens neurologique du terme : elles n’ont simplement jamais existé dans son champ de vision.
Cette limite est mesurée en tokens — des unités de texte qui correspondent grossièrement à des morceaux de mots. En anglais, 1 000 tokens représentent environ 750 mots. Un roman standard fait environ 100 000 mots, soit 130 000 à 150 000 tokens.
La fenêtre de contexte englobe toujours les deux côtés de l’échange : ce que vous envoyez (prompt, documents, historique) et ce que le modèle génère (réponse). Les deux consomment de l’espace.
L’évolution : de 2K à 2M tokens
La progression est spectaculaire sur cinq ans.
| Modèle | Taille du contexte |
|---|---|
| GPT-3 (2020) | 2 048 tokens |
| GPT-3.5-turbo (2023) | jusqu’à 16 385 tokens |
| GPT-4 (2023) | jusqu’à 32 768 tokens |
| Claude 2 (2023) | 100 000 tokens |
| Gemini 1.5 Pro (2024) | 1 000 000 tokens |
| GPT-4.1 / GPT-5 (2025) | 1 000 000 tokens |
| Claude Opus 4.5 (2025) | 200 000 tokens |
En 2020, la limite de 2 048 tokens empêchait même de traiter un article de blog un peu long. En 2025, une fenêtre d’un million de tokens permet de charger en une passe une encyclopédie complète, des bases de code entières, ou des mois d’échanges.
Cette évolution n’est pas gratuite techniquement : la complexité de calcul d’un transformer croît en O(n²) avec la longueur du contexte. Doubler la fenêtre quadruple le calcul. Les avancées récentes (attention sparse, positional encoding amélioré) permettent de contenir ce coût, mais la contrainte reste réelle.
Exemples concrets
Documents longs
Une fenêtre de 128 000 tokens — commune sur les modèles actuels — permet de traiter environ 100 000 mots en une seule interaction. C’est un roman moyen, un rapport de due diligence complet, ou plusieurs années de comptes rendus de réunions. Avant 2023, ce type d’analyse nécessitait de découper les documents, de les traiter par morceaux, et de recombiner manuellement les résultats.
Conversations longues
Dans une conversation multi-tours, le modèle ne mémorise rien entre les sessions. Il reconstitue sa “mémoire” à chaque tour en relisant l’historique complet stocké en contexte. Quand cet historique dépasse la fenêtre, les premiers échanges disparaissent — et avec eux les instructions initiales, les décisions prises, les contraintes posées.
RAG (Retrieval-Augmented Generation)
Quand un système RAG récupère des documents pertinents pour répondre à une question, il les injecte directement dans la fenêtre de contexte du modèle. Une fenêtre plus large permet d’injecter plus de documents simultanément, d’augmenter la précision du retrieval, et de fournir plus de contexte au modèle pour une réponse plus nuancée. La taille de la fenêtre est donc une contrainte architecturale directe pour tout système RAG.
Le problème “lost in the middle”
Avoir une grande fenêtre ne garantit pas que le modèle exploite tout ce qu’elle contient. Une étude publiée en 2024 dans les Transactions of the Association for Computational Linguistics (Liu et al., Stanford / University of Washington) a documenté un phénomène dit “lost in the middle” : les modèles utilisent mieux l’information placée en début et en fin de contexte que celle placée au milieu.
Sur GPT-3.5-Turbo, la performance pouvait chuter de plus de 20% quand l’information pertinente se trouvait au centre d’un long contexte — parfois en dessous de la performance d’un modèle qui n’avait reçu aucun document. La forme de la courbe est un U : les deux extrémités sont exploitées, le milieu est partiellement ignoré.
Des recherches plus récentes documentent un phénomène connexe appelé context rot : une dégradation de performance corrélée à l’augmentation brute du nombre de tokens en entrée, indépendamment de la qualité des documents récupérés.
Ce qu’il faut retenir
- La fenêtre de contexte fixe la limite de ce qu’un modèle peut traiter en une interaction. Ce qui en sort est perdu — le modèle n’y a plus accès.
- Elle a progressé de 2 000 tokens en 2020 à plus d’un million en 2025, mais cette progression a un coût computationnel quadratique.
- Une grande fenêtre ne compense pas un mauvais positionnement de l’information : les modèles traitent mieux ce qui est au début et à la fin du contexte (phénomène “lost in the middle”).
- Dans les systèmes RAG, la taille de la fenêtre est une contrainte architecturale directe qui détermine combien de documents peuvent être fournis au modèle en une passe.
- Remplir la fenêtre n’est pas toujours une bonne stratégie : trop de contexte peut diluer l’information pertinente et dégrader la performance (context rot).
Sources
- IBM — What is a context window?
- DataAnnotation — Context Windows Explained
- Towards Data Science — Towards infinite LLM context windows
- vellum.ai — Flagship model report 2025
- Redis — LLM context windows: what they are & how they work
- Liu et al. (2024) — Lost in the Middle: How Language Models Use Long Contexts, TACL — arxiv.org/abs/2307.03172 / MIT Press
- Medium — Understanding LLM Context Windows
- Chroma Research — Context Rot