Histoire des LLM — cinq ruptures qui ont tout changé

Les grands modèles de langage ne sont pas apparus du jour au lendemain. Retour sur les cinq tournants scientifiques, de 2013 à aujourd'hui, qui ont rendu possible ChatGPT et ses successeurs.

En bref

Les grands modèles de langage actuels sont le résultat de cinq ruptures successives, chacune débloquant la suivante : la représentation vectorielle des mots (2013), l’architecture Transformer (2017), le paradigme pré-entraînement/spécialisation (2018), la révélation du scale (2020), puis l’alignement comme enjeu central (2022). La popularité de ChatGPT en novembre 2022 n’est pas une rupture technique — le modèle sous-jacent existait depuis des mois. C’est une rupture d’interface : un LLM puissant rendu accessible à des utilisateurs non techniques pour la première fois.

2013 — Les mots comme points dans l’espace

Avant 2013, les systèmes de traitement du langage traitaient les mots comme des symboles discrets, sans relation entre eux. « Roi » et « reine » n’avaient aucun lien dans cet espace ; « banque » désignait la même chose qu’on parle d’argent ou de rivière.

Tomas Mikolov et ses collègues de Google changent cela avec Word2Vec (2013). L’idée : représenter chaque mot non plus comme un symbole isolé, mais comme un point dans un espace géométrique à plusieurs centaines de dimensions. La position d’un mot dans cet espace capture ses relations avec les autres mots. La démonstration devenue célèbre : dans cet espace, roi − homme + femme ≈ reine. L’arithmétique des vecteurs préserve la structure du sens.

Cette approche s’appelle le plongement lexical (ou word embedding). Stanford raffine la méthode en 2014 avec GloVe, qui combine la statistique globale des co-occurrences avec l’apprentissage local. Ces représentations vectorielles constituent le socle du traitement automatique du langage jusqu’en 2018.

Leur limite : un mot reçoit le même vecteur quel que soit son contexte. « Banque » a toujours la même représentation, que la phrase parle de finance ou de géographie. Il faudra attendre ELMo (2018) pour dépasser cette contrainte.

2017 — Le Transformer : quand tous les mots se parlent simultanément

Le 12 juin 2017, une équipe de Google Brain publie « Attention Is All You Need » (Vaswani et al., arXiv:1706.03762). Le papier propose une architecture radicalement différente des réseaux existants — le Transformer — qui abandonne les réseaux récurrents et leurs traitements séquentiels.

Le mécanisme central est l’attention : chaque mot d’une phrase peut directement « regarder » tous les autres mots et pondérer leur importance selon le contexte. Pour comprendre « il » dans « Paul a vu Jean, il était fatigué », un humain relie « il » à Paul ou Jean selon le sens global. Le mécanisme d’attention fait de même — et le fait simultanément pour tous les mots de la séquence.

Deux conséquences majeures. D’abord, la parallélisation : contrairement aux réseaux récurrents qui traitaient les séquences pas à pas, le Transformer traite l’intégralité en une seule passe, exploitable sur des GPU à grande échelle. Ensuite, la capture de relations longue portée : des mots très éloignés dans un texte peuvent s’influencer directement, sans les problèmes de mémoire qui affectaient les architectures précédentes.

Sur la traduction automatique, le Transformer dépasse tous les modèles précédents en moins d’une semaine d’entraînement sur 8 GPU. La rupture est incontestable.

2018 — Pré-entraîner, puis spécialiser

2018 consolide un paradigme qui va structurer le domaine : entraîner un modèle sur un très large corpus généraliste non étiqueté, puis le spécialiser sur des tâches précises avec beaucoup moins de données.

ELMo (Peters et al., NAACL 2018) marque la première rupture avec les plongements statiques : en utilisant des réseaux bidirectionnels, il produit des représentations contextuelles — le même mot reçoit une représentation différente selon sa phrase. Ajouté aux modèles existants sans modification, ELMo améliore l’état de l’art sur six benchmarks en langage naturel.

OpenAI publie GPT-1 la même année : un Transformer entraîné sur 800 millions de mots avec un objectif simple — prédire le mot suivant. Puis spécialisé sur des tâches précises. GPT-1 démontre que le pré-entraînement massif transfère efficacement vers des tâches très variées.

Google répond avec BERT (Devlin et al., arXiv:1810.04805) : une architecture encodeur bidirectionnelle qui lit la phrase dans les deux sens et prédit des mots masqués au lieu du mot suivant. BERT établit un nouveau record sur onze tâches de compréhension du langage. L’opposition GPT (génératif, gauche vers droite) contre BERT (encodeur, bidirectionnel) va structurer les débats architecturaux des années suivantes.

2020 — La révélation du scale

GPT-2 (2019, 1,5 milliard de paramètres) avait montré une chose surprenante : le modèle accomplissait des tâches de traduction ou de résumé sans y avoir été explicitement entraîné, simplement par conditionnement dans le prompt. OpenAI retarda même sa publication complète en invoquant des risques de désinformation.

GPT-3 (Brown et al., arXiv:2005.14165, 2020) pousse le raisonnement à son terme : 175 milliards de paramètres, entraîné sur environ 500 milliards de mots. Le phénomène révélé s’appelle l’apprentissage en contexte (in-context learning) : sans aucune spécialisation ultérieure, GPT-3 reçoit quelques exemples dans son contexte et généralise immédiatement. Cette capacité n’était pas présente dans les modèles plus petits — elle émerge avec le scale.

Kaplan et al. (arXiv:2001.08361, 2020) formalisent une observation empirique : la qualité des LLM suit des lois de puissance en fonction du nombre de paramètres, de la taille des données et du budget de calcul — sur sept ordres de grandeur. Ces lois de scaling impliquent que plus grand signifie mécaniquement meilleur, et orientent la course aux modèles toujours plus grands qui caractérisera 2020–2022.

En 2022, une correction décisive arrive de DeepMind : la loi Chinchilla (Hoffmann et al., arXiv:2203.15556). Les modèles existants étaient massivement sous-entraînés en données relativement à leur taille. Chinchilla, avec 70 milliards de paramètres mais quatre fois plus de données que ses contemporains, surpasse GPT-3 (175 milliards) sur la quasi-totalité des benchmarks. La course au scale brut est relativisée au profit d’un meilleur équilibre paramètres/données.

2022 — L’alignement : faire suivre des intentions, pas des distributions

GPT-3 impressionnait les chercheurs mais décevait les utilisateurs. Le modèle suivait des distributions statistiques, pas des intentions humaines : réponses toxiques, hallucinations, comportements imprévisibles face aux instructions.

La réponse technique s’appelle le RLHF (apprentissage par renforcement à partir de retours humains). Le pipeline, formalisé par Ouyang et al. d’OpenAI (arXiv:2203.02155, 2022), fonctionne en trois étapes : fine-tuning supervisé sur des démonstrations humaines, entraînement d’un modèle de récompense sur des comparaisons humaines, puis optimisation par renforcement pour maximiser cette récompense.

Le résultat est frappant : InstructGPT avec 1,3 milliard de paramètres est préféré par les annotateurs humains à GPT-3 avec 175 milliards dans 85 % des cas. Cent fois moins de paramètres, même niveau de préférence. La taille cède la priorité à l’alignement.

ChatGPT (novembre 2022) applique ce pipeline à une interface conversationnelle. En cinq jours, un million d’utilisateurs. En deux mois, cent millions — aucun produit technologique n’avait atteint cette diffusion aussi rapidement. La rupture n’est pas dans le modèle lui-même, mais dans l’accès : un LLM puissant rendu utilisable sans expertise technique.

Anthropic publie simultanément une alternative au RLHF : le Constitutional AI (Bai et al., arXiv:2212.08073). Au lieu d’annotateurs humains, le modèle s’auto-critique selon un ensemble de principes explicites et produit ses propres données d’entraînement. L’approche réduit la dépendance aux annotations humaines coûteuses.

2023–2025 — La fragmentation et le raisonnement

2023 voit la prolifération des modèles de premier plan. GPT-4 (OpenAI, 2023) intègre la compréhension d’images et dépasse GPT-3.5 sur la quasi-totalité des benchmarks professionnels — barre d’examen, médecine, mathématiques. Gemini (Google DeepMind, 2023) est nativement multimodal, entraîné simultanément sur texte, images, audio et vidéo.

Du côté des modèles ouverts, Meta publie LLaMA (arXiv:2302.13971) : des modèles de 7 à 65 milliards de paramètres entraînés sur des données entièrement publiques. LLaMA-13B surpasse GPT-3 (175B) sur la plupart des benchmarks. La communauté open-source explose. Mistral AI, fondée à Paris en 2023, publie Mistral-7B qui dépasse LLaMA-2-13B malgré deux fois moins de paramètres, grâce à des techniques d’attention plus efficaces.

En 2024-2025, une nouvelle rupture émerge autour du raisonnement : plutôt qu’optimiser la réponse directe, les modèles sont entraînés à produire des chaînes de réflexion longues avant de conclure. OpenAI publie la série o1/o3. DeepSeek (Chine) publie DeepSeek-R1 (arXiv:2501.12948, janvier 2025) en utilisant du renforcement pur : le modèle développe spontanément des comportements d’auto-vérification et d’exploration d’alternatives. R1 rivalise avec o1 à une fraction du coût de développement, montrant que l’ingénierie de l’entraînement peut compenser l’écart de ressources.

Débats ouverts

Deux questions restent sans réponse tranchée.

Les capacités émergentes sont-elles réelles ? Wei et al. (arXiv:2206.07682, 2022) décrivent des capacités absentes dans les petits modèles et soudainement présentes à grande échelle. Schaeffer et al. (arXiv:2304.15004, 2023) répondent que ces émergences sont peut-être un artefact des métriques choisies : avec des métriques continues, les performances scalent régulièrement sans rupture visible. La question est ouverte.

Les LLM comprennent-ils, ou simulent-ils la compréhension ? Bender et al. (ACM FAccT 2021) formulent la critique du « perroquet stochastique » : les LLM combinent des formes linguistiques sans référence à un sens ou une intention réelle. Des travaux récents proposent un terme intermédiaire — extrapolation contextuelle à partir de connaissances acquises — mais ce positionnement reste lui-même débattu.

Ce qu’il faut retenir

Les LLM actuels sont le produit de cinq ruptures enchaînées : plongements vectoriels (2013), Transformer (2017), pré-entraînement/spécialisation (2018), lois de scaling (2020), alignement par RLHF (2022).
La popularité de ChatGPT est une rupture d’interface, pas de modèle : le LLM existait depuis des mois, c’est l’accès non technique qui a changé la perception publique.
La loi Chinchilla (2022) a corrigé la course au scale brut : pour un budget de calcul fixe, mieux vaut entraîner un modèle plus petit sur plus de données.
Le RLHF a montré qu’un modèle 100 fois plus petit peut être préféré par les humains à un modèle plus grand si son alignement est meilleur.
La question de savoir si les LLM « comprennent » ou « simulent » reste ouverte et fait l’objet de désaccords dans la littérature scientifique.