En bref
Doubler la taille d’un modèle améliore ses performances de façon prévisible. Ce n’est pas une intuition : c’est une loi mathématique, vérifiée sur sept ordres de grandeur. Les chercheurs l’appellent scaling law — loi d’échelle. Elle a guidé le développement de GPT-3, puis de presque tous les grands modèles qui ont suivi.
Mais cette loi a des corollaires surprenants, des limites concrètes, et depuis 2024 une concurrente sérieuse : le scaling à l’inférence.
Les lois d’échelle répondent à une question simple : si j’investis davantage — plus de paramètres, plus de données, plus de calcul — combien est-ce que je gagne en performance ?
La réponse est régulière. Trop régulière pour être un hasard.
La découverte de Kaplan (2020)
En janvier 2020, l’équipe d’OpenAI publie un papier qui va structurer toute une décennie de recherche. Jared Kaplan et ses collègues entraînent des dizaines de modèles de tailles différentes et mesurent leur performance selon une métrique simple : la loss cross-entropique, c’est-à-dire l’erreur de prédiction du prochain token.
Le résultat est net. La performance suit une loi de puissance avec trois variables :
- N : le nombre de paramètres du modèle
- D : le nombre de tokens vus pendant l’entraînement
- C : le budget compute total (en FLOPs)
Chaque doublement de l’une de ces variables produit un gain de performance régulier et prévisible. La relation tient sur sept ordres de grandeur — soit l’écart entre un modèle de quelques millions de paramètres et un modèle de plusieurs centaines de milliards.
Ce résultat a une conséquence immédiate. Pour un budget compute fixe, il vaut mieux entraîner un grand modèle sur peu de données plutôt qu’un petit modèle sur beaucoup de données. GPT-3 (175 milliards de paramètres) est dimensionné directement à partir de ce principe.
La correction Chinchilla (2022)
Deux ans plus tard, DeepMind publie une révision qui remet en cause la prescription de Kaplan sur un point fondamental.
L’équipe de Jordan Hoffmann entraîne plus de 400 modèles, cette fois en faisant varier simultanément la taille du modèle et le volume de données. Leur conclusion : Kaplan se trompait sur un point précis. La taille du modèle et le nombre de tokens doivent croître proportionnellement. Pour chaque doublement du nombre de paramètres, il faut doubler le nombre de tokens d’entraînement.
La règle qui en ressort s’appelle la règle Chinchilla : 20 tokens par paramètre. Un modèle de 70 milliards de paramètres devrait voir 1,4 trillion de tokens pour être entraîné de façon optimale.
Pour démontrer le principe, DeepMind entraîne Chinchilla — 70 milliards de paramètres sur 1,4 trillion de tokens. Résultat : Chinchilla surpasse Gopher (280B), GPT-3 (175B) et Megatron-Turing NLG (530B) sur la majorité des benchmarks. Avec quatre fois moins de paramètres que Gopher.
L’implication est gênante pour l’industrie : les grands modèles de 2021-2022 étaient massivement sous-entraînés en données. On avait surinvesti dans les paramètres, pas dans les tokens. La communauté a réorienté ses pratiques en conséquence.
Les paramètres ne sont pas tout
Les scaling laws de Kaplan et Chinchilla mesurent la loss — l’erreur de prédiction du prochain token. Ce n’est pas la même chose que les capacités réelles d’un modèle sur des tâches concrètes.
Cette distinction est importante. En 2022, Jason Wei et ses collègues de Google décrivent des capacités émergentes : des aptitudes absentes sous un certain seuil de paramètres, qui semblent apparaître brusquement au-delà. Résoudre des équations à plusieurs étapes, translittérer, effectuer de l’arithmétique modulaire.
La contre-argumentation arrive l’année suivante. Rylan Schaeffer et ses co-auteurs (NeurIPS 2023, meilleur papier) montrent que ces sauts sont en partie des artefacts de mesure. Quand on utilise une métrique discontinue — comme le taux de réussite exact — un progrès continu en loss se traduit par un saut apparent dans les chiffres. Avec des métriques continues, la progression est souvent lisse.
Le débat n’est pas clos. Sur certaines tâches, des sauts persistent même avec des métriques continues. Mais l’idée que le scaling produit des émergences spectaculaires et imprévisibles est désormais contestée avec des arguments solides.
Le mur des données
Les scaling laws supposent un approvisionnement illimité en données de qualité. Or ce stock est fini.
Epoch AI estime que le texte humain public de qualité, une fois les doublons retirés, représente environ 300 trillions de tokens. À rythme d’entraînement croissant, ce capital pourrait être épuisé entre 2026 et 2032.
Face à cette contrainte, deux stratégies émergent. Première stratégie : répéter les données. Une étude de Muennighoff et al. (NeurIPS 2023) montre que répéter jusqu’à quatre epochs d’entraînement ne dégrade pas significativement les performances. Au-delà, les rendements s’effondrent.
Deuxième stratégie : surparamétrer délibérément. Des modèles récents comme Llama 3 sont entraînés bien au-delà de la prescription Chinchilla — plus de tokens que ne l’exige l’optimalité compute. L’idée est de maximiser la performance à l’inférence, au détriment de l’efficacité compute pendant l’entraînement. Un modèle plus petit mais plus entraîné coûte moins cher à déployer.
Une troisième dimension : le compute à l’inférence
Septembre 2024. OpenAI lance o1. Le modèle ne se distingue pas seulement par sa taille ou ses données d’entraînement — il réfléchit plus longtemps avant de répondre, en générant des chaînes de pensée internes par renforcement.
La performance sur des problèmes de mathématiques augmente de façon log-linéaire avec le temps de calcul alloué à l’inférence. Plus on laisse le modèle “penser”, plus il performe. o3, sorti en décembre 2024, pousse la logique plus loin : 88% sur GPQA, 88% sur ARC-AGI, 25% sur FrontierMath.
Un papier de Snell et al. (2024) formalise ce principe : pour des tâches de raisonnement, le scaling à l’inférence peut être plus efficace en compute que d’entraîner un modèle plus grand. Autrement dit, dépenser du calcul au moment de répondre peut valoir davantage que de le dépenser pendant l’entraînement.
Cette découverte ouvre une nouvelle dimension du scaling. Mais elle a un coût : o3 en mode haute performance peut coûter plus de 1 000 dollars par tâche. Le gain existe, mais son accessibilité est contrainte par l’économie autant que par la technique.
La densité de capacité
En parallèle de ces débats, une tendance de fond se dégage. Xiao et al. (2024, Nature Machine Intelligence) mesurent non pas la performance brute des modèles, mais leur densité de capacité : la performance rapportée au nombre de paramètres.
Depuis 2023, cette densité double tous les 3,5 mois environ. À performance équivalente, les modèles récents nécessitent exponentiellement moins de paramètres que leurs prédécesseurs. Les architectures parcimonieuses (MoE — Mixture of Experts) et la qualité des données en sont les principaux moteurs.
Ce résultat suggère que le “mur du scaling” ne mesure peut-être pas la bonne chose. Si l’on cherche des modèles plus gros, le mur est réel. Si l’on cherche des modèles plus capables, la progression continue — sous une autre forme.
Ce qu’il faut retenir
- Les lois d’échelle établissent que la performance des LLM progresse régulièrement avec la taille du modèle, le volume de données et le compute. Cette régularité, vérifiée sur sept ordres de grandeur, a guidé le développement des grands modèles depuis 2020.
- Kaplan (2020) a posé les bases : plus de paramètres, à budget compute fixe, prime sur plus de tokens. Chinchilla (2022) a corrigé ce biais : taille et données doivent croître ensemble, à raison de 20 tokens par paramètre. La communauté a massivement réajusté ses pratiques.
- Depuis 2024, une nouvelle dimension s’ajoute : le compute à l’inférence. o1 et o3 montrent que laisser un modèle “raisonner plus longtemps” améliore la performance de façon prévisible, indépendamment du scaling des paramètres.
- Les limites sont claires : le stock de données humaines de qualité est fini, les benchmarks classiques saturent, et le coût du test-time compute reste prohibitif pour beaucoup d’usages. Le débat sur les “capacités émergentes” — sauts spectaculaires liés à la taille — est actif et non tranché.
- La question n’est plus “est-ce que le scaling fonctionne ?” mais “quelle dimension scaler, avec quelles données, pour quel objectif ?”
Sources
- Kaplan et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361. https://arxiv.org/abs/2001.08361
- Hoffmann et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). NeurIPS 2022. arXiv:2203.15556. https://arxiv.org/abs/2203.15556
- Wei et al. (2022). Emergent Abilities of Large Language Models. arXiv:2206.07682. https://arxiv.org/abs/2206.07682
- Schaeffer, Miranda, Koyejo (2023). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023. arXiv:2304.15004. https://arxiv.org/abs/2304.15004
- Muennighoff et al. (2023). Scaling Data-Constrained Language Models. NeurIPS 2023. arXiv:2305.16264. https://arxiv.org/abs/2305.16264
- Xiao et al. (2024). Densing Law of LLMs. Nature Machine Intelligence. arXiv:2412.04315. https://arxiv.org/abs/2412.04315
- Snell et al. (2024). Scaling LLM Test-Time Compute Optimally Can be More Effective than Scaling Model Parameters. arXiv:2408.03314. https://arxiv.org/abs/2408.03314
- Epoch AI (2022). Will We Run Out of Data? Limits of LLM Scaling Based on Human-Generated Data. arXiv:2211.04325. https://epoch.ai/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data