Données synthétiques — comment les LLM apprennent de leurs propres sorties

Les LLM génèrent de plus en plus leurs propres données d'entraînement. Cette technique décuple les capacités des petits modèles — mais elle pose un risque structurel : l'effondrement progressif de la diversité.

En bref

Un LLM peut générer les exemples sur lesquels il sera ensuite entraîné. Ce principe, appelé données synthétiques, a permis en 2023 de produire des modèles de 7 milliards de paramètres aux performances comparables à des modèles dix fois plus grands entraînés sur des données brutes. Mais la technique a une limite structurelle : si un modèle apprend uniquement de ses propres sorties, génération après génération, il finit par appauvrir irrémédiablement ce qu’il sait produire. Comprendre ce mécanisme aide à lire les annonces des laboratoires d’IA avec plus de recul.

L’idée de base : se bootstrapper soi-même

Entraîner un grand modèle de langage nécessite des milliards d’exemples de haute qualité. Longtemps, ce besoin a suffi à justifier le recours massif à des données humaines — textes du web, livres, code. Mais à partir de 2022-2023, une approche alternative s’est imposée : faire générer ces exemples par un LLM existant.

La méthode Self-Instruct (Wang et al., 2022) en est le point de départ le plus cité. Le principe : fournir 175 instructions écrites par des humains, laisser un LLM en générer des milliers d’autres par imitation et variation, puis filtrer les doublons et les incohérences. Le résultat de cette boucle sert à affiner le modèle d’origine.

Stanford a poussé l’expérience plus loin avec Alpaca (2023) : 52 000 exemples générés via GPT-3.5, pour un coût inférieur à 500 dollars. Le modèle LLaMA-7B affiné sur ces données a atteint des performances comparables à GPT-3.5 sur plusieurs évaluations. L’idée que les données humaines étaient irremplaçables en prenait un coup.

La qualité avant la quantité : l’hypothèse phi

Microsoft Research a poussé cette logique dans une direction surprenante avec la série phi (Gunasekar et al., 2023). Phi-1 est un modèle de 1,3 milliard de paramètres entraîné sur seulement 7 milliards de tokens — dont une partie de code synthétique conçu pour ressembler à des manuels scolaires. Résultat : 50,6 % de réussite sur HumanEval (un benchmark de génération de code), devant des modèles dix fois plus grands entraînés sur des centaines de milliards de tokens bruts.

L’hypothèse formulée par les chercheurs — surnommée “textbook hypothesis” — affirme que la distribution des données importe plus que leur volume. Un texte dense en raisonnements explicites, en exemples bien structurés, en résolutions de problèmes pas à pas, apprendrait plus à un modèle qu’une quantité équivalente de contenu web ordinaire.

Cette thèse reste partiellement contestée. Une étude systématique publiée en 2025 (arXiv 2510.01631) montre que les données synthétiques seules, aussi soignées soient-elles, ne surpassent pas significativement CommonCrawl — le grand corpus de pages web brutes — en préentraînement. Elles deviennent avantageuses quand elles sont mélangées aux données réelles, non quand elles les remplacent. La promesse naïve de “remplacer Internet par des manuels scolaires” ne tient pas à grande échelle.

Evol-Instruct : rendre les données plus difficiles

Une autre variante cherche à augmenter la complexité des exemples synthétiques plutôt que leur volume. Evol-Instruct (Xu et al., 2023), développé pour WizardLM, consiste à demander à un LLM de réécrire des instructions existantes pour les rendre plus difficiles : ajouter des contraintes, introduire des raisonnements en plusieurs étapes, déplacer le problème vers un autre domaine. Ce processus itératif produit des jeux de données de 250 000 paires instruction-réponse progressivement plus exigeants. WizardCoder adapte cette stratégie à la génération de code avec des résultats notables.

Le piège du filtrage : ce qu’on croit améliorer

Avant même de générer des données synthétiques, les équipes doivent nettoyer les données existantes. Lee et al. (ACL 2022) ont montré qu’une phrase de 61 mots apparaît plus de 60 000 fois dans C4, un corpus d’entraînement standard. Cette répétition excessive entraîne une mémorisation plutôt qu’une généralisation.

Les techniques de déduplication — exacte via structures de suffixes, approchée via MinHash — réduisent ce problème. Le filtrage par perplexité est une autre approche : utiliser un petit modèle de référence pour noter la “difficulté” de chaque document, puis écarter les textes trop faciles (boilerplate répétitif) ou trop difficiles (contenu incohérent). C’est le meilleur signal unique identifié à ce jour pour la qualité des données (arXiv 2405.20541).

Mais une étude de 2025 (arXiv 2510.00866) apporte un bémol : les classificateurs de qualité courants, notamment ceux basés sur fastText, peuvent créer une “illusion de qualité” — les données filtrées semblent meilleures sur les benchmarks habituels, sans que la généralisation soit réellement améliorée. Le problème du filtrage n’est pas encore résolu.

La malédiction de la récursion

Le risque le plus structurel des données synthétiques est formulé par Shumailov et al. dans un article publié dans Nature en 2024 (arXiv 2305.17493) : entraîner un modèle sur les sorties d’un modèle précédent, répété plusieurs fois, provoque un effondrement irréversible de la distribution.

Le mécanisme est contre-intuitif. Ce ne sont pas les cas communs qui disparaissent en premier, mais les exemples rares — les queues de distribution. Après plusieurs générations d’entraînement récursif, le modèle perd la capacité à produire des contenus inhabituels, nuancés, minoritaires. Il devient fluide mais appauvrissant.

La réponse vient de Gerstgrasser et al. (arXiv 2404.01413, 2024) : l’effondrement survient uniquement si les données synthétiques remplacent les données réelles. Si elles s’accumulent à côté des données réelles — sans jamais les supplanter — l’effondrement est évité pour tous les types de modèles testés. Cette distinction accumulation/remplacement est la règle pratique qui guide les labs industriels aujourd’hui.

Elle repose toutefois sur une hypothèse fragile : que les données humaines restent disponibles. Des travaux publiés en 2024 (Villalobos et al., arXiv 2211.04325) estiment que les laboratoires pourraient atteindre l’épuisement des données humaines publiques entre 2026 et 2032. Si cette prévision se confirme, la frontière accumulation/remplacement deviendra difficile à maintenir.

Les lois de scaling et leurs limites

En 2022, DeepMind a publié les lois de scaling de Chinchilla (Hoffmann et al., arXiv 2203.15556) : pour un budget de calcul fixé, la taille du modèle et le nombre de tokens d’entraînement doivent croître proportionnellement. La règle empirique — 20 tokens par paramètre — a orienté les choix de la plupart des laboratoires pendant deux ans.

Mais une tentative de réplication publiée en 2024 (Besiroglu & Erdil, arXiv 2404.10102) montre que les coefficients dépendent fortement de la méthode d’ajustement : les trois approches de l’article original produisent des résultats divergents. La règle des 20 tokens n’est pas une constante physique.

En pratique, les laboratoires comme Meta (LLaMA) et Mistral ont choisi délibérément de “sur-entraîner” des modèles plus petits, bien au-delà du point optimal Chinchilla. La raison est économique : optimiser le coût d’inférence à long terme vaut plus que d’optimiser le coût d’entraînement. Des lois de scaling tenant compte de l’inférence (arXiv 2401.00448) confirment que ce choix est rationnel.

La contamination silencieuse des benchmarks

Un biais transversal affecte toutes ces évaluations : la contamination des données de test. Plusieurs études (arXiv 2406.04244, arXiv 2406.18824) montrent que des benchmarks standard comme MMLU ou HumanEval sont partiellement présents dans les corpus d’entraînement de certains modèles. Un modèle peut obtenir un score de réussite 4,9 fois plus élevé sur des exemples “filtrés” de son propre entraînement (LessLeak-Bench, arXiv 2502.06215).

La frontière entre “le modèle a appris à raisonner” et “le modèle a mémorisé les réponses” devient indiscernable sans accès aux corpus d’entraînement — informations que les laboratoires ne publient pas. Les performances annoncées sur les benchmarks classiques sont à lire avec prudence.

Ce qu’il faut retenir

Les données synthétiques permettent de réduire massivement la dépendance aux données humaines pour le fine-tuning : des modèles de 7B paramètres affinés sur 52 000 exemples synthétiques ont atteint les performances de modèles bien plus grands.
La qualité des données prévaut sur le volume en fine-tuning, mais en préentraînement, les données synthétiques seules ne surpassent pas les données réelles — elles les complètent.
Entraîner un modèle uniquement sur ses propres sorties, répété sur plusieurs générations, provoque un effondrement irréversible de la diversité (model collapse). La solution : toujours conserver une base de données réelles.
Les lois de scaling de Chinchilla sont des approximations utiles, pas des constantes — sur-entraîner des petits modèles est souvent plus rationnel économiquement.
La contamination des benchmarks est un biais structurel non résolu : les scores déclarés par les laboratoires sont difficiles à vérifier sans accès aux corpus d’entraînement.