En bref
La famille GPT est la ligne de modèles de langage développée par OpenAI depuis 2018. Elle a posé les bases du marché actuel des grands modèles de langage : GPT-3 a montré qu’un modèle suffisamment grand pouvait généraliser sur des tâches très diverses, ChatGPT a rendu ces capacités accessibles au grand public, et la série o a introduit une nouvelle façon de concevoir l’inférence — non plus comme une simple génération token par token, mais comme un processus de raisonnement étendu.
Deux branches coexistent aujourd’hui : les modèles GPT (4o, 4.1, 5…) optimisés pour la polyvalence et la vitesse, et les modèles o (o1, o3, o4-mini) qui investissent du temps de calcul supplémentaire à l’inférence pour résoudre des problèmes complexes. Ces deux familles convergent dans GPT-5, sorti en août 2025, qui intègre un routeur automatique entre mode rapide et mode “thinking”.
Fiche d’identité
| Champ | Valeur |
|---|---|
| Organisation | OpenAI |
| Première version | GPT-1 (2018) |
| Type | Transformer decoder-only, pré-entraîné et affiné par instructions |
| Accès | API (OpenAI), interface ChatGPT (gratuit et abonnement Pro) |
| Fenêtre de contexte | 128 000 tokens (GPT-4o) — 1 000 000 tokens (GPT-4.1) — 200 000 tokens (o3, o4-mini) |
Historique
2018–2022 : les fondations
GPT-1 (2018) introduit l’architecture Transformer decoder-only, pré-entraînée sur un corpus de livres. GPT-2 (2019) reprend ce principe à plus grande échelle, avec une publication initialement retenue par OpenAI par crainte d’usages abusifs. GPT-3 (2020), avec ses 175 milliards de paramètres, révèle l’émergence de capacités de généralisation inattendues : le modèle résout des tâches pour lesquelles il n’a pas été explicitement entraîné. GPT-3.5 / ChatGPT (novembre 2022) ajoute le fine-tuning par instruction (RLHF) et popularise l’accès grand public.
2023 : GPT-4
Lancé le 14 mars 2023, GPT-4 améliore significativement la fiabilité et la résolution de problèmes. Son architecture interne n’a jamais été confirmée officiellement, bien que des sources tierces évoquent une organisation de type Mixture of Experts. OpenAI a cessé de publier le nombre de paramètres à partir de cette version.
2024 : multimodalité et raisonnement
GPT-4o (mai 2024) est le premier modèle GPT nativement multimodal : il traite texte, audio et image dans un pipeline unifié, sans étape de transcription intermédiaire. La latence de réponse audio atteint 320 ms, comparable au temps de réaction humain. Fenêtre de contexte : 128 000 tokens.
o1-preview (septembre 2024) inaugure la série o. Ces modèles sont entraînés à “réfléchir” avant de répondre : un processus de chain-of-thought interne, invisible pour l’utilisateur, permet d’explorer plusieurs pistes avant de formuler une réponse. Ce n’est pas du simple prompting CoT — le raisonnement est intégré à l’entraînement et à l’inférence (“test-time compute”).
2025 : extension des contextes et unification
GPT-4.1 (avril 2025) porte la fenêtre de contexte à 1 million de tokens. o3 et o4-mini (avril 2025) étendent les capacités de raisonnement aux outils (recherche web, exécution Python, génération d’images), avec une fenêtre de 200 000 tokens et 100 000 tokens en sortie.
GPT-5 (août 2025) unifie les deux branches : un routeur automatique distribue les requêtes entre un mode rapide et un mode thinking selon la complexité du problème.
2026 : retraite des anciens modèles
Le 13 février 2026, OpenAI a retiré de ChatGPT GPT-4o, GPT-4.1, GPT-4.1 mini et o4-mini. Ces modèles restent disponibles via l’API.
Capacités
Benchmarks
Série o1 (septembre 2024)
| Benchmark | o1 | GPT-4o (référence) |
|---|---|---|
| AIME 2024 | 74 % (1 essai) / 93 % (1000 essais, reranking) | 12 % |
| GPQA Diamond | 78,1 % | — |
Le score GPQA Diamond de 78,1 % dépasse le niveau médian des doctorants humains experts dans leur domaine. Claude 3.5 Sonnet atteignait 67,2 % au même benchmark.
Source : OpenAI — Learning to reason with LLMs
o3 et o4-mini (avril 2025)
| Benchmark | o3 | o4-mini |
|---|---|---|
| AIME 2025 (avec Python) | 98,4 % | 99,5 % |
| SWE-bench Verified | 69,1 % | 68,1 % |
| GPQA Diamond | 87,7 % | 81,4 % |
Source : OpenAI — Introducing o3 and o4-mini
GPT-5 (août 2025)
| Benchmark | Score |
|---|---|
| AIME 2025 (sans outils) | 94,6 % |
| SWE-bench Verified | 74,9 % |
| Aider Polyglot | 88 % |
| MMMU | 84,2 % |
Source : OpenAI — Introducing GPT-5
Multimodalité
GPT-4o accepte en entrée du texte, de l’audio, des images et de la vidéo (convertie en frames à 2–4 fps, sans piste audio). En sortie : texte, audio, image. Le traitement audio est natif — pas de pipeline séparé de transcription — ce qui réduit la latence et améliore la compréhension des nuances prosodiques.
Les modèles o3 et o4-mini ajoutent le raisonnement visuel approfondi et l’intégration des outils ChatGPT dans la chaîne de pensée.
Limites connues
Hallucinations
GPT-4o hérite des problèmes d’hallucinations des générations précédentes. La génération de voix haute-fidélité introduit un risque supplémentaire : la fluidité du rendu peut induire une confiance mal calibrée chez les utilisateurs. Le modèle de transcription audio d’OpenAI produit environ 90 % moins d’hallucinations que Whisper v2 selon les tests internes en environnement bruité — mais ce chiffre concerne la transcription, pas la génération de contenu.
Source : GPT-4o System Card
Knowledge cutoff
| Modèle | Cutoff |
|---|---|
| GPT-4o (version initiale) | Octobre 2023 |
| GPT-4o (version mise à jour) | Juin 2024 |
| GPT-4.1, 4.1 mini, 4.1 nano | Juin 2024 |
Le cutoff des modèles o3 et o4-mini n’a pas été confirmé dans les sources primaires consultées.
Coûts API
Les modèles de raisonnement sont significativement plus lents que les modèles standards : le temps de “réflexion” interne augmente la latence de façon non négligeable. Les tarifs reflètent cet investissement :
| Modèle | Input ($/M tokens) | Output ($/M tokens) |
|---|---|---|
| GPT-4.1 | 2,00 $ | 8,00 $ |
| GPT-4.1 mini | 0,40 $ | 1,60 $ |
| GPT-4.1 nano | 0,10 $ | 0,40 $ |
| o3 | 2,00 $ | 8,00 $ |
| o4-mini | 1,10 $ | 4,40 $ |
Des réductions s’appliquent via la Batch API (–50 %, résultats sous 24h) et le cache de prompts (tokens en cache à –50 %).
Source : OpenAI API Pricing, Curlscape — OpenAI Pricing Guide 2026
Opacité architecturale
Depuis GPT-4, OpenAI ne publie plus le nombre de paramètres ni les détails architecturaux de ses modèles. L’architecture Mixture of Experts souvent citée pour GPT-4 n’a jamais été confirmée officiellement. Cette opacité rend difficile toute comparaison rigoureuse avec des modèles open-weight.
Ce qu’il faut retenir
- La famille GPT a traversé trois ruptures majeures : quantitative (mise à l’échelle), qualitative (instruction tuning), et algorithmique (raisonnement à l’inférence avec la série o).
- GPT-5 représente la convergence de ces directions : un routeur automatique distribue les requêtes entre mode rapide et mode thinking selon la demande.
- Les modèles de raisonnement (o1, o3) investissent du calcul supplémentaire à l’inférence — ce n’est pas du prompting, c’est intégré à l’entraînement.
- L’architecture exacte, la taille réelle et les données d’entraînement restent opaques depuis GPT-4 : les benchmarks constituent la principale fenêtre d’observation externe.
Sources
- OpenAI — Introducing GPT-4.1
- OpenAI — Introducing o3 and o4-mini
- OpenAI — Introducing GPT-5
- OpenAI — Learning to reason with LLMs (o1)
- OpenAI — Retiring GPT-4o, GPT-4.1, o4-mini from ChatGPT
- OpenAI — GPT-4 Technical Report (PDF)
- OpenAI — GPT-4o System Card (PDF)
- OpenAI — API Pricing
- Wikipedia — GPT-4
- Wikipedia — GPT-4o
- Wikipedia — OpenAI o1
- Wikipedia — Generative pre-trained transformer
- IBM — What is GPT-4o
- DataCamp — o4-mini
- Helicone — GPT-4.1 Full Developer Guide
- Microsoft Tech Community — Reasoning models o1/o3/o4-mini
- ARC Prize — Analyzing o3 with ARC-AGI
- Vellum — GPT-5 Benchmarks
- NextBigFuture — OpenAI o1 math records
- Curlscape — OpenAI API Pricing Guide 2026