Alternatives à Nvidia — qui attaque vraiment le marché des puces IA ?

AMD, AWS, Cerebras, Tenstorrent : tour d'horizon des challengers qui cherchent à réduire la dépendance à Nvidia dans les infrastructures d'entraînement et d'inférence des grands modèles.

En bref

Nvidia contrôle entre 80 et 92 % du marché des accélérateurs IA selon la métrique retenue. Mais depuis 2023, plusieurs acteurs ont réussi à déployer des alternatives en production réelle — pas seulement sur le papier. AMD tourne chez Meta et Microsoft, AWS construit ses propres puces pour entraîner les modèles Claude, Cerebras a signé un contrat de dix milliards de dollars avec OpenAI. Le problème n’est pas tant la performance brute des puces que l’écosystème logiciel qui les entoure — et c’est là que la domination de Nvidia est la plus difficile à déloger.

Trois familles d’alternatives

Avant de comparer les acteurs, il faut distinguer trois types d’approches radicalement différentes.

Les GPU à marché ouvert (AMD Instinct, Intel Gaudi) sont des puces que n’importe quelle entreprise peut acheter. Elles concurrencent directement les GPU Nvidia sur les mêmes usages — entraînement et inférence de grands modèles — mais peuvent tourner sur n’importe quel cloud ou serveur. C’est le marché le plus contesté.

Les ASICs propriétaires (AWS Trainium, Google TPU, Microsoft Maia) sont des circuits conçus sur mesure par les grandes plateformes cloud pour leurs propres besoins. Ils ne sont pas disponibles à l’achat : ils alimentent les services internes et, dans certains cas, les offres cloud de ces plateformes. Leur avantage : un coût et une efficacité énergétique optimisés pour des workloads précis. Leur limite : aucune flexibilité hors de l’usage prévu.

Les architectures alternatives (Cerebras, Groq, SambaNova, Tenstorrent) prennent le problème à rebours. Plutôt que d’améliorer le GPU classique, elles proposent des conceptions radicalement différentes : un processeur couvrant une tranche de silicium entière, un processeur de langage à ordonnancement déterministe, des unités reconfigurables. Gains importants sur des workloads ciblés, rigidité importante sur les autres.

AMD : le seul challenger crédible sur le marché ouvert

En 2023, AMD était marginale dans l’IA en production. En 2026, Meta exécute 100 % du trafic de son modèle Llama 405B sur des puces AMD MI300X. Microsoft Azure et Oracle Cloud proposent des instances MI300X en disponibilité générale.

Ce basculement tient à une décision d’architecture. Le MI300X embarque 192 Go de mémoire HBM3 — contre 80 Go pour le H100 de Nvidia — avec une bande passante de 5,3 To/s. Pour les modèles à très long contexte, qui doivent conserver des quantités importantes de données en mémoire pendant l’inférence, cet avantage est décisif.

La génération MI350 (2025) monte encore : 288 Go de mémoire, 8 To/s de bande passante. Les benchmarks MLPerf Training v5.1 montrent des performances proches de Nvidia en précision FP8, avec des gains pouvant atteindre 2,8x par rapport à la génération précédente.

Le problème d’AMD n’est pas le silicium. C’est ROCm, son équivalent de CUDA. Malgré la version ROCm 7 (septembre 2025), les mesures pratiques montrent que CUDA dépasse ROCm de 10 à 30 % sur les workloads à forte intensité de calcul, même là où AMD a un avantage théorique sur le papier. Le port d’une application CUDA vers ROCm reste significativement plus complexe qu’AMD ne le communique.

Les ASICs captifs : quand les hyperscaleurs font leur propre puce

La stratégie la plus lisible se trouve chez AWS. Le Projet Rainier est une installation dédiée en Indiana : 500 000 puces Trainium2, sur un site de 1 200 acres, consacrées exclusivement à l’entraînement des modèles Claude d’Anthropic — avec cinq fois la puissance de calcul des générations précédentes.

La puce Trainium3, lancée fin 2025 en procédé 3nm chez TSMC, affiche 2,52 petaflops FP8 par puce, 144 Go de mémoire HBM3e et une bande passante de 4,9 To/s — soit 4,4 fois plus de capacité de calcul que Trainium2. AWS annonce un coût des instances Trn2 environ deux fois inférieur aux instances H100 comparables pour les workloads adaptés.

Ce modèle soulève une question structurelle : les ASICs captifs ne font pas que concurrencer Nvidia. Ils soustraient aussi des volumes qui auraient pu aller à AMD ou aux autres challengers. Les hyperscaleurs s’auto-approvisionnent, réduisant le marché adressable de tous les fabricants de GPU — y compris les alternatives.

Google suit la même logique avec ses TPU depuis 2016, avec la particularité que TensorFlow puis JAX ont été développés en priorité pour TPU. Meta expérimente ses propres puces d’inférence (MTIA). Microsoft a lancé le Maia 100, mais son déploiement en production reste limité à l’usage interne — et la génération suivante (Maia 200) a subi des retards significatifs, repoussée à 2026 après des changements de design et des difficultés d’intégration.

Les architectures alternatives : performances de niche, risques réels

Cerebras Systems a construit quelque chose d’inhabituel : le Wafer-Scale Engine (WSE-3) est une puce qui occupe une tranche de silicium entière de 300 mm — là où un GPU classique n’en occupe qu’une fraction. Résultat : 4 000 milliards de transistors, 900 000 cœurs IA, et une mémoire SRAM embarquée de 44 Go directement sur la puce. L’intérêt : les données n’ont pas besoin de transiter par la mémoire externe (HBM), goulot d’étranglement des GPU classiques. En janvier 2026, OpenAI a signé avec Cerebras un partenariat estimé à plus de 10 milliards de dollars pour 750 MW de capacité de calcul jusqu’en 2028.

Groq avait développé un LPU (Language Processing Unit) avec un ordonnancement déterministe — contrairement aux GPU qui gèrent des tâches en parallèle de façon probabiliste. Sur l’inférence de Llama 70B, le LPU atteignait 276 à 300 tokens par seconde en configuration standard, jusqu’à 1 665 tokens par seconde avec des techniques d’accélération. La limite : une optimisation exclusive pour l’inférence, qui réduisait le marché adressable. Nvidia a acquis Groq fin 2025 pour environ 20 milliards de dollars.

Tenstorrent, dirigé par Jim Keller (architecte de puces chez AMD, Apple et Intel), mise sur une stratégie radicalement différente : stack logiciel entièrement open-source, architecture RISC-V. La puce Blackhole (6nm TSMC) aligne 140 cœurs spécialisés, 774 TFLOPS en FP8. Avec 700 millions de dollars levés et la participation de Jeff Bezos, l’entreprise a constitué un cluster de 192 puces en production.

SambaNova propose des RDU (Reconfigurable Data Units) sur son système SN50 (2026) et revendique une vitesse cinq fois supérieure aux GPU concurrents et un coût total trois fois inférieur pour les workloads d’IA agentique et les modèles de type MoE comme DeepSeek-R1. Ces chiffres sont issus des communications de l’entreprise et n’ont pas été vérifiés par des benchmarks indépendants.

La vraie bataille : CUDA, pas le silicium

Jim Keller a qualifié CUDA de “swamp, not a moat” — un marais, pas des douves. L’argument : comme x86 chez Intel dans les années 2000, l’héritage technique finit par devenir un boulet plutôt qu’un avantage.

La thèse inverse est celle que défendent la majorité des analystes financiers. CUDA représente vingt ans d’investissement cumulé : plus de 4 millions de développeurs formés, plus de 3 000 applications optimisées, des bibliothèques comme cuDNN et TensorRT profondément intégrées dans les pipelines de production. Les outils de migration CUDA vers d’autres environnements existent mais sont jugés insuffisants pour les déploiements en production.

En pratique, l’écart de performance entre CUDA et les alternatives logicielles est réel et documenté. Ce n’est pas un écart hardware — AMD a, sur certaines métriques, un avantage théorique de 32 % sur Nvidia. C’est un écart d’optimisation logicielle accumulée sur des années.

La stratégie des hyperscaleurs pour contourner ce problème est de passer par PyTorch, qui est devenu le standard de l’industrie. Google et Meta poussent des backends PyTorch natifs pour TPU et AMD (TorchTPU, ROCm via PyTorch) — en espérant que la couche d’abstraction rende le silicium sous-jacent progressivement interchangeable.

Tableau de bord — qui en est où

Acteur	Type	Déploiements réels	Signal 2025-2026
AMD Instinct MI300X/MI350	GPU marché ouvert	Meta (Llama 405B), Microsoft Azure, Oracle Cloud	Challenger principal, retard logiciel ROCm
AWS Trainium2/3	ASIC captif	Entraînement Claude (Anthropic), instances Trn2	Projet Rainier 500 000 chips, Trainium3 en 3nm
Google TPU	ASIC captif	Services Google internes, Google Cloud	Depuis 2016, TensorFlow/JAX natif
Microsoft Maia	ASIC captif	Usage interne uniquement	Maia 200 retardé à 2026
Intel Gaudi 3	GPU marché ouvert	IBM Cloud, Dell PowerEdge	Gamme discontinuée — risque d’adoption
Cerebras WSE-3	Wafer-scale	Partenariat OpenAI	Deal 10 Md$ signé janvier 2026
Groq LPU	LPU inference	Cloud public Groq	Acquis par Nvidia fin 2025 (~20 Md$)
Tenstorrent Blackhole	RISC-V + Tensix	Cluster 192 puces	Open-source, 700 M$ levés
SambaNova RDU	Reconfigurable	Niche MoE/agentique	Chiffres non vérifiés indépendamment
Huawei Ascend	GPU marché fermé	Dominant en Chine	Hors marché occidental (restrictions export)

Ce qu’il faut retenir

Nvidia maintient 80 à 92 % du marché selon la métrique. En unités déployées pour l’inférence, sa part serait de 60 à 75 % en incluant les ASICs des hyperscaleurs.
AMD est le seul challenger avec des déploiements en production réelle à grande échelle (Meta, Microsoft, Oracle). Son avantage mémoire sur les modèles à long contexte est documenté. Son retard logiciel (ROCm vs CUDA) reste significatif.
Les ASICs captifs des hyperscaleurs (AWS Trainium, Google TPU) représentent une alternative qui contourne tous les acteurs du marché ouvert — y compris les challengers de Nvidia.
Intel a abandonné sa gamme Gaudi, laissant un vide sur le segment des GPU à marché ouvert et créant un risque réel pour les entreprises qui avaient commencé à s’en équiper.
La domination de Nvidia tient moins au silicium qu’à l’écosystème logiciel CUDA — vingt ans d’investissement qu’aucun challenger n’a encore réussi à égaler en conditions de production.
Le marché grandit plus vite que les challengers ne gagnent des parts : une baisse de la part de marché Nvidia en pourcentage peut correspondre à une hausse de ses revenus en valeur absolue.