En bref
Les LLM produisent des résultats impressionnants, mais personne ne sait vraiment pourquoi. L’interprétabilité mécanistique est le domaine de recherche qui cherche à ouvrir cette boîte noire — non pas pour observer les sorties, mais pour comprendre les calculs internes, étape par étape. Les progrès depuis 2021 sont réels : on sait aujourd’hui isoler des “circuits” responsables de comportements précis, identifier des concepts encodés dans les activations, et même modifier le comportement d’un modèle en agissant directement sur ses représentations internes.
La boîte noire qui fascine et inquiète
Un LLM transforme des tokens en probabilités à travers des centaines de couches de calcul matriciel. Ce mécanisme est parfaitement déterministe et entièrement visible — chaque multiplication peut être inspectée. Pourtant, il est pratiquement incompréhensible : des milliards de paramètres, des interactions non linéaires, aucun ingénieur n’a “programmé” la grammaire française ou la connaissance des capitales. Ces propriétés émergent de l’entraînement.
C’est là que l’interprétabilité entre en jeu. L’objectif n’est pas de comprendre pourquoi le modèle dit quelque chose de juste ou de faux — c’est de comprendre le mécanisme causal qui produit la réponse. Comme un biologiste qui disséquerait un organisme inconnu pour en cartographier les organes.
Les circuits : des sous-réseaux avec une fonction
L’approche dite des circuits repose sur une idée simple : dans un réseau de neurones, certains sous-ensembles de composants (têtes d’attention, couches MLP) travaillent ensemble pour réaliser une tâche précise. Ces sous-ensembles forment un “circuit” qu’on peut isoler, analyser et tester.
Le point de départ est un article fondateur publié par Anthropic en 2021, qui formalise les transformers comme une somme de fonctions analysables séparément. Les auteurs y distinguent le circuit QK — qui détermine où chaque tête d’attention regarde — du circuit OV, qui détermine ce qu’elle produit en sortie. Ce cadre rend le réseau partiellement traçable.
En 2022, une application concrète confirme la pertinence de l’approche : des chercheurs identifient les induction heads, un circuit à deux couches présent dans la quasi-totalité des transformers, responsable de la capacité à reproduire des patterns déjà vus dans le contexte. Ce mécanisme, simple à décrire, explique une large part du comportement dit “d’apprentissage en contexte” (in-context learning) — la capacité d’un modèle à s’adapter à des exemples fournis dans le prompt.
Le problème de la polysémantique
L’analyse par circuits se heurte rapidement à un obstacle : les neurones individuels sont polysémantiques. Un neurone donné s’active pour des contextes sémantiquement très différents — du texte juridique, des séquences ADN, des pronoms en hébreu. Ce n’est pas un défaut de conception : c’est une conséquence mathématique de la compression.
Un modèle de 10 milliards de paramètres doit représenter beaucoup plus de 10 milliards de concepts distincts. La solution que les réseaux trouvent spontanément : superposer plusieurs concepts dans les mêmes directions de l’espace d’activation. C’est l’hypothèse de superposition, formalisée en 2022 (Elhage et al., arXiv:2209.10652). Les concepts rares peuvent cohabiter dans les mêmes neurones avec peu d’interférences, car ils s’activent rarement en même temps.
Cette compression rend l’interprétation neurone par neurone à peu près impossible. Il faut une autre approche.
Les autoencodeurs sparses : séparer les concepts superposés
La réponse proposée en 2023 par l’équipe d’Anthropic est élégante : si les concepts sont superposés dans un espace de petite dimension, on peut les séparer en les projetant dans un espace de dimension bien plus grande, en forçant une représentation creuse (sparse).
C’est le principe du sparse autoencoder (SAE) appliqué à l’apprentissage de dictionnaire. Un réseau auxiliaire apprend à décomposer les activations internes du LLM en une somme de vecteurs, avec la contrainte que peu de vecteurs sont actifs simultanément. Chaque vecteur correspond alors à une “feature” — une direction dans l’espace d’activation associée à un concept précis.
Appliqué à la couche 6 de GPT-2 Small avec une expansion 16x, le résultat est frappant : environ 15 000 features distinctes, dont 70 % correspondent à un concept identifiable par des humains. Des features pour le script arabe, les séquences ADN, les requêtes HTTP, le texte hébreu. Des résultats comparables ont été obtenus indépendamment par d’autres équipes (Cunningham et al., arXiv:2309.08600).
En 2024, l’approche est appliquée à Claude 3 Sonnet, un modèle de production. Des dizaines de millions de features sont identifiées, multilingues et multimodales. Parmi elles, des features associées à la tromperie, à la sycophanie, à des contenus dangereux. Et une démonstration clé : en activant artificiellement certaines features (feature steering), on peut modifier le comportement du modèle de façon prévisible.
Tracer les étapes de calcul : les graphes d’attribution
Début 2025, Anthropic franchit une nouvelle étape avec les attribution graphs : des graphes qui reconstituent partiellement les étapes computationnelles qu’un modèle suit entre un prompt et sa réponse. La méthode est appliquée à Claude 3.5 Haiku.
Les résultats sont inattendus. Dans certains cas de traduction, le modèle semble opérer dans un espace conceptuel partagé entre langues avant de produire la sortie dans la langue cible — une forme de “langue de pensée” intermédiaire. Dans certains cas de raisonnement arithmétique, aucune trace d’un calcul effectif n’est détectable : le modèle semble deviner la réponse correcte, puis reconstruire rétrospectivement des étapes intermédiaires plausibles.
Ces observations ne sont pas des conclusions définitives — le papier compagnon “On the Biology of a Large Language Model” adopte explicitement une posture exploratoire, traitant le LLM comme un organisme dont on cherche à cartographier la physiologie sans garantie de complétude.
Ce que le domaine ne sait pas encore
L’enthousiasme est tempéré par des limites sérieuses.
La scalabilité reste un problème ouvert. Les techniques actuelles sont difficilement applicables à des modèles de centaines de milliards de paramètres sans automation massive. L’annotation humaine des features, le traçage manuel de circuits — ces processus ne passent pas à l’échelle (Bereska & Gavves, arXiv:2404.14082).
Les interprétations sont-elles vraiment causales ? Un résultat publié en 2025 montre que des SAE trouvent des features “interprétables” même dans des transformers initialisés aléatoirement, sans aucun entraînement (arXiv:2501.17727). Cela interroge la signification des features découvertes : reflètent-elles l’apprentissage réel du modèle, ou simplement des propriétés structurelles de l’architecture ?
Le lien avec la sécurité reste à démontrer. La promesse est forte : si on comprend les circuits responsables d’un comportement problématique, on peut les détecter ou les corriger. Mais aucun résultat publié ne démontre encore qu’une intervention mécanique à l’échelle des modèles de pointe résout un problème de sécurité concret. Un article de 2025 (arXiv:2506.18852) argumente que le domaine manque de cadres conceptuels rigoureux pour relier mécanismes computationnels et objectifs normatifs.
L’unité d’analyse fait débat. Neurones, têtes d’attention, directions dans l’espace d’activation, features SAE — chaque décomposition révèle certains aspects et en masque d’autres. La revue “Open Problems in Mechanistic Interpretability” (2025), signée par plus de 30 chercheurs d’Anthropic, Google DeepMind, MIT et d’autres institutions, identifie explicitement l’absence de cadre théorique unifié comme un obstacle majeur.
Ce qu’il faut retenir
- L’interprétabilité mécanistique cherche à comprendre les calculs internes des LLM, pas seulement leurs sorties — avec des méthodes inspirées de la biologie et de la rétro-ingénierie.
- Les “circuits” sont des sous-réseaux responsables de comportements précis ; les “induction heads” identifiés en 2022 expliquent en partie la capacité d’adaptation en contexte.
- La superposition de concepts dans les mêmes neurones complique l’analyse ; les sparse autoencoders (SAE) permettent de les séparer en projetant les activations dans un espace de dimension supérieure.
- La feature steering — activer artificiellement une feature pour modifier le comportement — est une technique prometteuse mais dont la robustesse à grande échelle reste à établir.
- Les limites sont réelles : scalabilité non résolue, risque de projections interprétatives sans validité causale, et lien avec la sécurité encore largement théorique.
Sources
- Elhage, N., Nanda, N., Olsson, C. et al., “A Mathematical Framework for Transformer Circuits”, Transformer Circuits Thread, 2021
- Elhage, N., Hume, T., Olsson, C. et al., “Toy Models of Superposition”, arXiv:2209.10652, 2022
- Olsson, C., Elhage, N., Nanda, N. et al., “In-context Learning and Induction Heads”, Transformer Circuits Thread, 2022
- Bricken, T., Templeton, A. et al., “Towards Monosemanticity: Decomposing Language Models With Dictionary Learning”, Transformer Circuits Thread, Anthropic, 2023
- Cunningham, H., Ewart, A. et al., “Sparse Autoencoders Find Highly Interpretable Features in Language Models”, arXiv:2309.08600, 2023
- Templeton, A., Conerly, T. et al., “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”, Transformer Circuits Thread, Anthropic, mai 2024
- Anthropic Interpretability Team, “Circuit Tracing: Revealing Computational Graphs in Language Models”, Transformer Circuits Thread, 2025
- Anthropic Interpretability Team, “On the Biology of a Large Language Model”, Transformer Circuits Thread, 2025
- Sharkey, L., Chughtai, B., Nanda, N. et al., “Open Problems in Mechanistic Interpretability”, arXiv:2501.16496, janvier 2025
- Bereska, L., Gavves, E., “Mechanistic Interpretability for AI Safety — A Review”, arXiv:2404.14082, 2024
- Auteurs non identifiés, “Sparse Autoencoders Can Interpret Randomly Initialized Transformers”, arXiv:2501.17727, 2025
- Auteurs non identifiés, “Mechanistic Interpretability Needs Philosophy”, arXiv:2506.18852, 2025
- Survey collectif, “A Survey on Sparse Autoencoders”, arXiv:2503.05613, 2025
- MIT Technology Review, “Mechanistic Interpretability: 10 Breakthrough Technologies 2026”, janvier 2026