Les GPT d'OpenAI — de GPT-4o à o3

En bref

La famille GPT est la ligne de modèles de langage développée par OpenAI depuis 2018. Elle a posé les bases du marché actuel des grands modèles de langage : GPT-3 a montré qu’un modèle suffisamment grand pouvait généraliser sur des tâches très diverses, ChatGPT a rendu ces capacités accessibles au grand public, et la série o a introduit une nouvelle façon de concevoir l’inférence — non plus comme une simple génération token par token, mais comme un processus de raisonnement étendu.

Deux branches coexistent aujourd’hui : les modèles GPT (4o, 4.1, 5…) optimisés pour la polyvalence et la vitesse, et les modèles o (o1, o3, o4-mini) qui investissent du temps de calcul supplémentaire à l’inférence pour résoudre des problèmes complexes. Ces deux familles convergent dans GPT-5, sorti en août 2025, qui intègre un routeur automatique entre mode rapide et mode “thinking”.

Fiche d’identité

Champ	Valeur
Organisation	OpenAI
Première version	GPT-1 (2018)
Type	Transformer decoder-only, pré-entraîné et affiné par instructions
Accès	API (OpenAI), interface ChatGPT (gratuit et abonnement Pro)
Fenêtre de contexte	128 000 tokens (GPT-4o) — 1 000 000 tokens (GPT-4.1) — 200 000 tokens (o3, o4-mini)

Historique

2018–2022 : les fondations

GPT-1 (2018) introduit l’architecture Transformer decoder-only, pré-entraînée sur un corpus de livres. GPT-2 (2019) reprend ce principe à plus grande échelle, avec une publication initialement retenue par OpenAI par crainte d’usages abusifs. GPT-3 (2020), avec ses 175 milliards de paramètres, révèle l’émergence de capacités de généralisation inattendues : le modèle résout des tâches pour lesquelles il n’a pas été explicitement entraîné. GPT-3.5 / ChatGPT (novembre 2022) ajoute le fine-tuning par instruction (RLHF) et popularise l’accès grand public.

2023 : GPT-4

Lancé le 14 mars 2023, GPT-4 améliore significativement la fiabilité et la résolution de problèmes. Son architecture interne n’a jamais été confirmée officiellement, bien que des sources tierces évoquent une organisation de type Mixture of Experts. OpenAI a cessé de publier le nombre de paramètres à partir de cette version.

2024 : multimodalité et raisonnement

GPT-4o (mai 2024) est le premier modèle GPT nativement multimodal : il traite texte, audio et image dans un pipeline unifié, sans étape de transcription intermédiaire. La latence de réponse audio atteint 320 ms, comparable au temps de réaction humain. Fenêtre de contexte : 128 000 tokens.

o1-preview (septembre 2024) inaugure la série o. Ces modèles sont entraînés à “réfléchir” avant de répondre : un processus de chain-of-thought interne, invisible pour l’utilisateur, permet d’explorer plusieurs pistes avant de formuler une réponse. Ce n’est pas du simple prompting CoT — le raisonnement est intégré à l’entraînement et à l’inférence (“test-time compute”).

2025 : extension des contextes et unification

GPT-4.1 (avril 2025) porte la fenêtre de contexte à 1 million de tokens. o3 et o4-mini (avril 2025) étendent les capacités de raisonnement aux outils (recherche web, exécution Python, génération d’images), avec une fenêtre de 200 000 tokens et 100 000 tokens en sortie.

GPT-5 (août 2025) unifie les deux branches : un routeur automatique distribue les requêtes entre un mode rapide et un mode thinking selon la complexité du problème.

2026 : retraite des anciens modèles

Le 13 février 2026, OpenAI a retiré de ChatGPT GPT-4o, GPT-4.1, GPT-4.1 mini et o4-mini. Ces modèles restent disponibles via l’API.

Capacités

Benchmarks

Série o1 (septembre 2024)

Benchmark	o1	GPT-4o (référence)
AIME 2024	74 % (1 essai) / 93 % (1000 essais, reranking)	12 %
GPQA Diamond	78,1 %	—

Le score GPQA Diamond de 78,1 % dépasse le niveau médian des doctorants humains experts dans leur domaine. Claude 3.5 Sonnet atteignait 67,2 % au même benchmark.

Source : OpenAI — Learning to reason with LLMs

o3 et o4-mini (avril 2025)

Benchmark	o3	o4-mini
AIME 2025 (avec Python)	98,4 %	99,5 %
SWE-bench Verified	69,1 %	68,1 %
GPQA Diamond	87,7 %	81,4 %

Source : OpenAI — Introducing o3 and o4-mini

GPT-5 (août 2025)

Benchmark	Score
AIME 2025 (sans outils)	94,6 %
SWE-bench Verified	74,9 %
Aider Polyglot	88 %
MMMU	84,2 %

Source : OpenAI — Introducing GPT-5

Multimodalité

GPT-4o accepte en entrée du texte, de l’audio, des images et de la vidéo (convertie en frames à 2–4 fps, sans piste audio). En sortie : texte, audio, image. Le traitement audio est natif — pas de pipeline séparé de transcription — ce qui réduit la latence et améliore la compréhension des nuances prosodiques.

Les modèles o3 et o4-mini ajoutent le raisonnement visuel approfondi et l’intégration des outils ChatGPT dans la chaîne de pensée.

Limites connues

Hallucinations

GPT-4o hérite des problèmes d’hallucinations des générations précédentes. La génération de voix haute-fidélité introduit un risque supplémentaire : la fluidité du rendu peut induire une confiance mal calibrée chez les utilisateurs. Le modèle de transcription audio d’OpenAI produit environ 90 % moins d’hallucinations que Whisper v2 selon les tests internes en environnement bruité — mais ce chiffre concerne la transcription, pas la génération de contenu.

Source : GPT-4o System Card

Knowledge cutoff

Modèle	Cutoff
GPT-4o (version initiale)	Octobre 2023
GPT-4o (version mise à jour)	Juin 2024
GPT-4.1, 4.1 mini, 4.1 nano	Juin 2024

Le cutoff des modèles o3 et o4-mini n’a pas été confirmé dans les sources primaires consultées.

Coûts API

Les modèles de raisonnement sont significativement plus lents que les modèles standards : le temps de “réflexion” interne augmente la latence de façon non négligeable. Les tarifs reflètent cet investissement :

Modèle	Input ($/M tokens)	Output ($/M tokens)
GPT-4.1	2,00 $	8,00 $
GPT-4.1 mini	0,40 $	1,60 $
GPT-4.1 nano	0,10 $	0,40 $
o3	2,00 $	8,00 $
o4-mini	1,10 $	4,40 $

Des réductions s’appliquent via la Batch API (–50 %, résultats sous 24h) et le cache de prompts (tokens en cache à –50 %).

Source : OpenAI API Pricing, Curlscape — OpenAI Pricing Guide 2026

Opacité architecturale

Depuis GPT-4, OpenAI ne publie plus le nombre de paramètres ni les détails architecturaux de ses modèles. L’architecture Mixture of Experts souvent citée pour GPT-4 n’a jamais été confirmée officiellement. Cette opacité rend difficile toute comparaison rigoureuse avec des modèles open-weight.

Ce qu’il faut retenir

La famille GPT a traversé trois ruptures majeures : quantitative (mise à l’échelle), qualitative (instruction tuning), et algorithmique (raisonnement à l’inférence avec la série o).
GPT-5 représente la convergence de ces directions : un routeur automatique distribue les requêtes entre mode rapide et mode thinking selon la demande.
Les modèles de raisonnement (o1, o3) investissent du calcul supplémentaire à l’inférence — ce n’est pas du prompting, c’est intégré à l’entraînement.
L’architecture exacte, la taille réelle et les données d’entraînement restent opaques depuis GPT-4 : les benchmarks constituent la principale fenêtre d’observation externe.