GPU Nvidia et CUDA — pourquoi ils dominent le calcul IA

Les GPU Nvidia sont devenus l'infrastructure de base des grands modèles de langage. Comprendre pourquoi suppose d'expliquer CUDA autant que le matériel lui-même.

En bref

Nvidia détient environ 92 % du marché des accélérateurs IA pour l’entraînement en 2025. Cette domination ne repose pas uniquement sur la performance brute de ses puces — elle tient aussi à vingt ans d’écosystème logiciel construit autour de CUDA, un modèle de programmation propriétaire que les concurrents n’ont pas encore réussi à contourner sérieusement. Mais une érosion est en cours, par un vecteur inattendu : l’inférence et les puces sur mesure des grands fournisseurs de cloud.

Pourquoi un GPU pour l’IA ?

Un processeur classique (CPU) est conçu pour exécuter des instructions complexes les unes après les autres, avec quelques dizaines de cœurs au maximum. Un GPU fonctionne à l’inverse : il embarque des milliers de cœurs simples capables de traiter de nombreuses opérations en parallèle.

Or, entraîner ou faire tourner un grand modèle de langage revient essentiellement à multiplier des matrices — des tableaux de nombres — des millions de fois par seconde. Les GPU sont naturellement adaptés à cette tâche. Le H100 de Nvidia intègre 16 896 cœurs de calcul. Le B200, sorti en 2024, en regroupe l’équivalent via une architecture à deux puces reliées.

Ces cartes embarquent aussi de la mémoire à très haute vitesse, la HBM (High Bandwidth Memory), empilée directement sur la puce. Le H100 dispose de 80 Go à 3,35 To/s de bande passante. Le B200 monte à 192 Go à 8 To/s. Cette mémoire rapide est le facteur dimensionnant pour les grands modèles : plus un modèle est lourd, plus il faut de mémoire disponible pour le faire tourner sans dégrader les performances.

CUDA : la vraie barrière à l’entrée

En 2006, Nvidia lance CUDA (Compute Unified Device Architecture), un modèle de programmation qui permet aux développeurs d’écrire du code C/C++ exécuté directement sur les GPU Nvidia. Ce n’est pas une simple interface — c’est un écosystème entier.

Autour de CUDA gravitent des bibliothèques hautement optimisées : cuBLAS pour l’algèbre linéaire, cuDNN pour les primitives de deep learning, NCCL pour les communications entre GPU dans un cluster. Ces bibliothèques sont co-développées avec le matériel à chaque génération. Quand une nouvelle puce sort, les bibliothèques CUDA l’exploitent immédiatement. Aucun concurrent ne peut offrir ce niveau d’intégration logiciel-matériel.

Le résultat : plus de 4 millions de développeurs formés à CUDA, 3 000 applications GPU-accélérées, et tous les grands frameworks — PyTorch, TensorFlow, JAX — qui s’appuient sur CUDA en arrière-plan. Un ingénieur qui écrit du PyTorch utilise CUDA sans le savoir.

Migrer vers une alternative (ROCm d’AMD, par exemple) représente plusieurs mois d’ingénierie par organisation, sans garantie de performance équivalente. ROCm reste 10 à 30 % moins performant que CUDA sur les charges de calcul intensif, selon les benchmarks 2025.

Les générations matérielles : Ampere, Hopper, Blackwell

A100 (Ampere, 2020)

L’A100 est la puce qui a équipé la première vague de déploiements massifs de LLM. 80 Go de HBM2e, 2 To/s de bande passante, interconnexion NVLink 3.0 à 600 Go/s entre GPU. Elle introduit les Tensor Cores de troisième génération, des unités spécialisées pour les multiplications de matrices en précision réduite (FP16, BF16), délivrant un rapport calcul/watt bien supérieur aux cœurs standards.

H100 (Hopper, 2022)

Le H100 marque un saut qualitatif. Fabriqué en 4 nm chez TSMC, il intègre 80 milliards de transistors et introduit le Transformer Engine — une unité dédiée au calcul en FP8 (8 bits flottants), ce qui permet de doubler le débit d’inférence par rapport au BF16. En entraînement, les gains mesurés par MLPerf placent le H100 à 2 à 3 fois les performances de l’A100. En inférence sur les LLM, le facteur monte à 10-20x, selon la précision utilisée. Le prix unitaire d’un H100 se situe autour de 37 000 dollars sur le marché.

L’interconnexion NVLink 4.0 atteint 900 Go/s, et les configurations NVL (jusqu’à 8 GPU sur un DGX H100) permettent de faire tourner des modèles de plusieurs centaines de milliards de paramètres en tenant l’ensemble en mémoire partagée.

B200 (Blackwell, 2024)

Le B200 franchit une limite physique : la surface maximale d’un réticule de gravure (environ 850 mm²) ne suffisait plus pour intégrer tous les transistors voulus sur une seule puce. Nvidia adopte une architecture multi-die — deux puces reliées par un bus interne à 10 To/s. Le résultat : 208 milliards de transistors, 192 Go de HBM3e à 8 To/s, NVLink 5.0 à 1 800 Go/s.

Les gains annoncés — ×5 en calcul FP4 par rapport au H100 — reposent sur la précision FP4 (4 bits), ce qui implique des techniques de quantification spécifiques. En entraînement, le gain mesuré sur les systèmes DGX est autour de ×3. En inférence, ×15.

La montée en puissance a un coût : les racks NVL72 (72 GPU B200 interconnectés) consomment plus de 120 kW. Ils exigent un refroidissement liquide et une infrastructure électrique spéciale. Plusieurs déploiements Blackwell ont été retardés non pas par manque de puces, mais par contraintes d’alimentation électrique dans les datacenters.

Les challengers : AMD, Intel, et les puces maison

AMD est le seul concurrent matériel sérieux, avec 5 à 8 % de part de marché. Sa gamme MI300 (MI300X : 192 Go de HBM3) est moins chère que le H100 de 20 à 30 %, ce qui lui a valu des déploiements chez Meta, OpenAI, et sur des supercalculateurs comme El Capitan. Mais le retard logiciel de ROCm reste le frein principal.

Intel est en dessous de 1 % du marché. Son accélérateur Gaudi 3 cible l’inférence à bas coût, sans s’imposer comme alternative crédible à grande échelle.

Les puces maison des hyperscaleurs constituent la vraie menace structurelle. Google utilise ses TPU (v7 “Ironwood”) pour entraîner et faire tourner ses modèles Gemini, avec une revendication de réduction des coûts de 40 à 60 % par rapport aux GPU externes. AWS dispose du Trainium 2 (utilisé pour entraîner certains modèles chez ses clients). Microsoft développe Maia 2, Meta MTIA. Ces puces ne sont pas vendues — elles capturent la demande interne des hyperscaleurs. Les projections tablent sur 15 à 25 % du marché total d’ici 2026-2027, principalement sur l’inférence.

Le vrai débat : l’érosion par l’inférence

L’entraînement de nouveaux modèles reste le domaine où Nvidia est le plus difficile à remplacer : il requiert une grande flexibilité, des précisions élevées (BF16, FP32), et une gestion complexe des communications inter-GPU. Nvidia détient environ 90 % de ce segment.

L’inférence — faire tourner un modèle déjà entraîné pour répondre aux requêtes des utilisateurs — est structurellement différente. Un modèle en production a une topologie fixe. On peut l’optimiser, le quantifier, le spécialiser. C’est là que les ASICs sur mesure sont économiquement justifiables malgré leurs coûts de développement élevés.

Si les TPU et Trainium capturent l’inférence des hyperscaleurs, ils ne concurrencent pas directement Nvidia sur le marché ouvert — ils réduisent simplement la demande adressable. L’impact sur le chiffre d’affaires de Nvidia dépend de la croissance totale du marché : si les usages IA croissent plus vite que l’internalisation hyperscaler, Nvidia peut perdre des parts de marché et gagner en valeur absolue.

Un autre vecteur d’érosion est plus discret : Triton, un langage open-source développé par OpenAI permettant d’écrire des kernels GPU portables, compilables sur GPU AMD et Google TPU. Les nouveaux kernels écrits en Triton ne sont pas liés à CUDA. À mesure que les codebases se renouvellent, le stock de code exclusivement CUDA diminue.

Ce qu’il faut retenir

Les GPU Nvidia dominent le calcul IA à ~92 % en entraînement, grâce à une combinaison de matériel performant et de vingt ans d’écosystème logiciel CUDA.
Chaque génération apporte des gains mesurables : H100 ×2-3 vs A100 en entraînement, ×10-20 en inférence ; B200 ×3 en entraînement, ×15 en inférence vs H100.
La progression des performances s’accompagne d’une progression tout aussi rapide de la consommation électrique : les racks Blackwell dépassent 120 kW, rendant le refroidissement liquide obligatoire.
L’érosion de la domination Nvidia vient principalement des puces maison des hyperscaleurs (TPU, Trainium) sur l’inférence — pas d’AMD.
Le “verrou CUDA” est réel mais pas permanent : Triton et JAX ouvrent des voies de portabilité pour les nouveaux projets.