Plus d'agents ≠ meilleurs résultats — le paradoxe du scaling multi-agents

Ajouter des agents à un système d'IA ne garantit pas de meilleures performances. Plusieurs études empiriques documentent les conditions exactes où cette stratégie échoue — et les rares cas où elle réussit.

En bref

Ajouter des agents à un système d’IA peut dégrader les performances plutôt que les améliorer. Une étude de Google Research et DeepMind testant 180 configurations montre que les systèmes multi-agents consomment entre 4 et 220 fois plus de tokens qu’un agent unique — souvent sans gain de précision. La règle n’est pas “plus d’agents = plus performant”, mais “plus d’agents = plus performant sur les bonnes tâches, dans les bonnes conditions”.

Le paradoxe du baseline

Le “baseline paradox” désigne un phénomène bien documenté : un agent unique correctement configuré surpasse souvent des architectures multi-agents plus complexes sur les mêmes tâches.

Kim et al. (Google Research / DeepMind / MIT, 2025) ont évalué 180 configurations contrôlées couvrant cinq architectures différentes — agent unique, agents indépendants, coordination centralisée, coordination décentralisée, hybride — testées sur trois familles de modèles (GPT, Gemini, Claude) et quatre benchmarks. Leurs résultats sont nets :

Au-delà d’un seuil de précision d’environ 45 % pour l’agent unique, la coordination multi-agents produit des rendements décroissants ou négatifs.
Sur les tâches de planification séquentielle (benchmark PlanCraft), toutes les variantes multi-agents dégradent les performances de 39 à 70 % par rapport à l’agent seul.
En parallèle, les agents indépendants amplifient les erreurs 17,2 fois contre 4,4 fois pour la coordination centralisée.

L’interprétation : quand un agent unique est déjà performant, ajouter des agents introduit surtout de la complexité — chemins d’erreur supplémentaires, coordination coûteuse, propagation de fautes entre agents.

Ce que les chiffres disent

L’overhead en tokens

Le coût de coordination est le premier obstacle. Kim et al. quantifient un overhead de 4 à 220 fois plus de tokens pour les systèmes multi-agents selon la tâche. Ce facteur 220 n’est pas une anomalie : il reflète la communication inter-agents, les étapes de vérification, et la redondance structurelle.

Xu et al. (2026, ICLR) chiffrent cet écart concrètement sur HumanEval : 0,020 $ par tâche pour un agent unique contre 0,026 $ pour un workflow multi-agents équivalent — soit 30 % de surcoût pour des performances quasi identiques (92,1 % vs 91,6 % pass@1).

Benchmark	Agent unique	Multi-agents
HumanEval	92,1 %	91,6 %
MBPP	81,4 %	81,1 %
GSM8K	93,3 %	93,0 %
HotpotQA	73,5 F1	73,5 F1

La conclusion d’Xu et al. est directe : pour les workflows où tous les agents utilisent le même modèle de base (workflows homogènes), un agent unique en conversation multi-tour produit les mêmes résultats à moindre coût.

Les modes d’échec identifiés

Cemri et al. (UC Berkeley / MIT, 2025) ont analysé plus de 1 600 traces d’exécution sur sept frameworks multi-agents populaires et identifié 14 modes d’échec distincts, regroupés en trois catégories : défauts de conception du système, désalignement entre agents, et échecs de vérification des tâches.

Un pattern revient souvent dans les architectures “bag of agents” — des agents sans topologie structurée : l’erreur d’un premier agent corrompt le contexte du suivant, qui produit un résultat hors-sujet transmis au troisième. L’erreur se propage et s’amplifie à chaque étape.

Quand plusieurs agents apportent un gain réel

Le paradoxe a ses limites. Plusieurs domaines documentent des gains clairs.

Tâches parallélisables : Kim et al. mesurent +80,8 % de performance pour la coordination centralisée sur Finance-Agent, un benchmark de traitement financier où les sous-tâches sont indépendantes entre elles. La parallélisation réelle justifie l’overhead.

Recherche pharmaceutique : DrugAgent, un système multi-agents spécialisé, atteint 92 % de précision sur des tâches complexes de recherche médicamenteuse, avec une amélioration de 4,92 % en ROC-AUC par rapport à un agent unique sur le benchmark BindingDB pour la prédiction d’interactions médicament-cible [NON VÉRIFIÉ : croisement de sources partiel].

Recherche documentaire long-horizon : les architectures multi-agents (planification, récupération parallèle, synthèse) sont documentées comme supérieures aux appels LLM simples quand la tâche exige d’explorer simultanément de nombreuses sources indépendantes — c’est le cas des outils Deep Research (Google, Anthropic, OpenAI).

Systèmes spécialisés : AlphaProof et AlphaGeometry 2 de DeepMind résolvent 4 problèmes sur 6 de l’IMO 2024. Ces pipelines d’agents spécialisés illustrent ce qui fonctionne : agents aux rôles distincts, tâches parallélisables, spécialisation réelle.

La leçon SciAgent

En novembre 2025, le papier SciAgent (arXiv:2511.08151) revendiquait des performances de médaille d’or à l’IMO 2025 grâce à un système hiérarchique multi-agents. Il a été retiré par ses auteurs le même mois, avec mention de “nécessité d’évaluation experte supplémentaire et d’ajustements méthodologiques majeurs”.

SciAgent illustre un risque spécifique au domaine : les résultats de performance multi-agents sont difficiles à vérifier indépendamment, les benchmarks utilisés varient d’une étude à l’autre, et l’absence de standard commun favorise les comparaisons avantageuses. MultiAgentBench (ACL 2025) tente de combler ce manque, mais n’est pas encore adopté comme référence.

Ce qu’il faut retenir

Un agent unique bien configuré surpasse souvent des systèmes multi-agents sur les tâches séquentielles — dégradation documentée de 39 à 70 % (Kim et al., 2025).
L’overhead en tokens des systèmes multi-agents va de 4 à 220 fois celui d’un agent unique selon la tâche.
Le seuil empirique : au-delà de ~45 % de précision pour l’agent unique, les gains multi-agents disparaissent.
Les gains réels sont documentés sur les tâches parallélisables, la recherche pharmaceutique, et la recherche documentaire long-horizon.
Les workflows homogènes (même modèle de base) peuvent être simulés par un agent unique avec les mêmes performances et un coût inférieur (Xu et al., 2026).