Architecture Transformer — le mécanisme qui a tout changé

Comment fonctionne l'attention, pourquoi tous les grands modèles de langage reposent sur la même architecture, et ce que les chercheurs débattent encore aujourd'hui.

En bref

Le Transformer est l’architecture sur laquelle reposent la quasi-totalité des grands modèles de langage actuels — GPT, Claude, LLaMA, Gemini, Mistral. Proposée en 2017 par des chercheurs de Google, elle a remplacé les réseaux récurrents en introduisant un principe central : l’attention. Comprendre ce mécanisme, c’est comprendre pourquoi ces modèles sont capables de maintenir un fil de cohérence sur de longs textes, de traduire, de coder, de résumer — et aussi pourquoi ils ont des limites bien précises.

L’intuition de départ : replacer l’attention au centre

Avant 2017, les modèles de traitement du langage traitaient les phrases mot par mot, en séquence. Un réseau récurrent lisait “Le chat dort sur le tapis” de gauche à droite, stockant une mémoire résumée à chaque étape. Cette mémoire compressée devenait vite insuffisante pour capturer les relations entre des mots éloignés dans le texte.

Le Transformer résout ce problème différemment : plutôt que de lire séquentiellement, il regarde tous les mots en même temps et calcule, pour chaque mot, à quel point il doit “prêter attention” à chacun des autres. C’est le principe de la self-attention (attention propre ou intra-attention).

L’analogie utile : imaginez une recherche documentaire. Pour répondre à une question (la requête), vous parcourez une bibliothèque (les clés), et extrayez le contenu des livres pertinents (les valeurs). Le mécanisme d’attention fait exactement cela, mais pour chaque token d’une phrase, vis-à-vis de tous les autres tokens.

Formellement, pour une séquence donnée, on calcule trois matrices — Q (requêtes), K (clés), V (valeurs) — et l’attention s’écrit :

Attention(Q, K, V) = softmax(QKᵀ / √d_k) · V

Le facteur √d_k sert à stabiliser les calculs quand la dimension des représentations est grande. Le résultat : une pondération de toutes les positions de la séquence, pour chaque position. Un modèle peut ainsi connecter directement “il” et “Napoléon” dans “Napoléon a perdu la bataille parce qu’il était malade”, quelle que soit la distance entre les deux mots.

Multi-head attention : plusieurs lectures simultanées

Une seule couche d’attention ne suffit pas. Le Transformer utilise la multi-head attention : plusieurs “têtes” d’attention opèrent en parallèle, chacune avec ses propres projections. Certaines têtes capturent des relations syntaxiques (sujet–verbe), d’autres des relations sémantiques (synonymes, anaphores), d’autres encore des dépendances à longue distance.

Les sorties de toutes les têtes sont concaténées, puis reprojetées. C’est cette richesse de points de vue simultanés qui donne au Transformer sa capacité de compréhension fine.

L’information de position : un problème à résoudre

Le mécanisme d’attention est, par construction, indifférent à l’ordre des tokens. “Chat mange souris” et “Souris mange chat” produiraient les mêmes représentations sans correction. Il faut donc injecter explicitement une information sur la position de chaque token.

Trois approches dominent :

Encodage sinusoïdal (2017) : des vecteurs basés sur des fonctions sinus et cosinus sont additionnés aux représentations d’entrée. Simple, mais les modèles extrapolent mal à des séquences plus longues que celles vues à l’entraînement.

RoPE — Rotary Position Embedding (2021) : la position est encodée comme une rotation dans l’espace vectoriel. La rotation est absolue par token, mais la comparaison entre deux tokens ne retient que leur position relative. RoPE est devenu le standard des LLM modernes (LLaMA, Mistral, DeepSeek, Qwen). Sa limite : l’extrapolation hors de la fenêtre d’entraînement reste difficile, ce qui a motivé des extensions comme YaRN (2023) et LongRoPE.

ALiBi — Attention with Linear Biases (2021) : au lieu d’ajouter des vecteurs, ALiBi pénalise directement les scores d’attention en fonction de la distance entre tokens. Plus deux tokens sont éloignés, plus leur score est pénalisé. Aucun vecteur de position n’est ajouté aux représentations. ALiBi offre une meilleure généralisation aux longues séquences. Adopté dans MPT et BLOOM.

Une étude comparative publiée à l’EMNLP 2024 nuance les débats : après fine-tuning, les modèles entraînés avec ces trois méthodes tendent à converger vers des performances similaires.

Trois familles architecturales

L’architecture Transformer originale était encoder-decoder. Depuis, trois familles se sont imposées selon les usages :

Architecture	Attention	Exemples	Usage principal
Encoder-only	Bidirectionnelle (voit tout)	BERT, RoBERTa	Compréhension, classification, NER
Decoder-only	Causale (ne voit que le passé)	GPT, LLaMA, Claude, Mistral	Génération de texte, LLM
Encoder-decoder	Encodeur bidirectionnel + décodeur causal	T5, BART	Traduction, résumé, QA génératif

La domination actuelle du decoder-only n’est pas une évidence technique universelle. Des résultats publiés en 2024 suggèrent que l’architecture encoder-decoder peut surpasser le decoder-only après instruction-tuning à budget de calcul équivalent. La question reste ouverte : la popularité du decoder-only reflète peut-être autant le succès historique de GPT qu’une supériorité architecturale intrinsèque.

Scaling laws : combien de paramètres, combien de données ?

Une question fondamentale en LLM est celle du scaling : comment la performance évolue-t-elle quand on augmente la taille du modèle, la quantité de données ou le budget de calcul ?

Kaplan et al. (2020, OpenAI) ont montré que la perte du modèle suit des lois de puissance stables sur sept ordres de grandeur. Leur recommandation à l’époque : à budget de calcul fixé, investir majoritairement dans les paramètres du modèle.

Hoffmann et al. (2022, DeepMind) ont revisité cette conclusion avec Chinchilla : en entraînant plus de 400 modèles de 70M à 16B paramètres, ils ont montré que Kaplan sous-estimait l’importance des données. La règle révisée : taille du modèle et nombre de tokens d’entraînement doivent croître proportionnellement. Chinchilla (70B paramètres, 1,4 trillion de tokens) surpassait ainsi Gopher (280B) et GPT-3 (175B) sur de nombreux benchmarks.

Mais les modèles récents — LLaMA 3, Mistral — s’entraînent délibérément au-delà des recommandations Chinchilla. La raison : un modèle plus petit mais sur-entraîné est moins coûteux à déployer à grande échelle. Les scaling laws intègrent désormais le coût d’inférence, pas seulement le coût d’entraînement.

Ce qui change à l’échelle : efficacité et compromis

Deux problèmes pratiques structurent l’ingénierie des Transformers modernes.

La complexité quadratique de l’attention : calculer l’attention entre tous les paires de tokens coûte O(n²) en mémoire et en calcul. Pour une séquence de 100 000 tokens, cela devient rapidement prohibitif. FlashAttention (Dao et al., 2022–2024) résout partiellement le problème : en réorganisant les accès mémoire pour exploiter la hiérarchie GPU, la mémoire requise passe à O(n) avec un gain de vitesse de 2 à 4×. La complexité temporelle reste quadratique, mais le problème devient gérable en pratique.

Le KV-cache : à l’inférence (quand le modèle génère du texte), les clés et valeurs de tous les tokens déjà produits sont mises en cache pour éviter de les recalculer. Ce cache consomme beaucoup de mémoire. Deux variantes d’attention réduisent ce coût :

Multi-Query Attention (MQA) : une seule tête K/V partagée entre toutes les têtes de requêtes — plus rapide, légère perte de qualité.
Grouped Query Attention (GQA) : quelques groupes de têtes partagent chacun une tête K/V — compromis entre vitesse et qualité, adopté dans LLaMA 2 (70B), Mistral, Gemma.

Ce que les chercheurs débattent encore

L’architecture Transformer est stabilisée, mais plusieurs questions restent ouvertes.

Les capacités émergentes sont-elles réelles ? En 2022, plusieurs équipes ont observé que certaines capacités (raisonnement arithmétique, compréhension analogique) semblent apparaître brusquement à certains seuils de taille. En 2023, Schaeffer et al. ont publié un argument fort : ces “sauts” sont des artefacts de métriques discontinues. Avec des métriques continues, la progression serait régulière. Le débat n’est pas clos.

Les Transformers peuvent-ils être remplacés ? Des architectures alternatives — Mamba, RWKV, Hyena — reposent sur des mécanismes sub-quadratiques qui pourraient réduire le coût des longues séquences. En pratique, elles peinent encore à égaler les Transformers sur les benchmarks standards. La piste la plus prometteuse semble être les architectures hybrides combinant attention locale et mécanismes alternatifs.

La généralisation en longueur reste un problème non résolu. Même avec RoPE et ses extensions, les modèles ont du mal à raisonner de façon fiable sur des contextes bien au-delà de leur fenêtre d’entraînement. YaRN, LongRoPE, Position Interpolation sont des solutions empiriques, sans fondement théorique solide.

Ce qu’il faut retenir

Le Transformer repose sur l’attention : chaque token calcule simultanément sa relation avec tous les autres, sans traitement séquentiel.
La multi-head attention permet d’apprendre plusieurs types de relations en parallèle — syntaxe, sémantique, dépendances longues.
L’encodage positionnel (RoPE dominant aujourd’hui) est un ajout nécessaire car l’attention est indifférente à l’ordre des tokens.
Les scaling laws (Kaplan 2020, Chinchilla 2022) guident le dimensionnement des modèles ; les pratiques récentes dépassent Chinchilla en intégrant le coût d’inférence.
La domination du decoder-only (GPT, LLaMA, Mistral) est historique autant que technique — le débat avec l’encoder-decoder reste ouvert.
Les grandes questions non résolues : complexité quadratique à très longue séquence, généralisation hors fenêtre d’entraînement, réalité des capacités émergentes.