En bref

Chaque fois qu’un grand modèle de langage est entraîné, des dizaines à des milliers de tonnes de CO₂ sont émises. Chaque requête envoyée à un modèle comme ChatGPT consomme de l’eau — quelques centilitres par échange, cumulés sur des milliards d’appels. Ce sujet est médiatisé depuis 2019, mais les chiffres circulent souvent hors contexte. Cet article démêle les ordres de grandeur réels, les arguments industriels et les questions que la recherche n’a pas encore tranchées.


Training vs inference : deux types de coûts

Comprendre l’empreinte de l’IA commence par distinguer deux phases radicalement différentes.

Le training est le coût ponctuel mais massif d’entraîner un modèle. Il mobilise des milliers de GPU pendant des semaines ou des mois. C’est le chiffre spectaculaire que citent les articles de presse.

L’inference est le coût de chaque requête utilisateur. Unitairement faible, mais cumulé sur des milliards d’appels quotidiens, il représente une part croissante — parfois comparable — de l’empreinte totale d’un modèle sur sa durée de vie.

Un article fondateur de 2022 de Luccioni et al. sur BLOOM, modèle de 176 milliards de paramètres entraîné sur le supercalculateur Jean Zay en France, montre que dix-huit mois d’inference ont produit une empreinte carbone comparable à celle de l’entraînement lui-même (24,7 tCO₂e pour le training). C’est la première étude académique à documenter cet équilibre sur un modèle de cette taille.


Les ordres de grandeur du training

En 2019, Strubell et al. (Carnegie Mellon) publient une mesure qui va marquer les esprits : l’entraînement d’un modèle NLP avec recherche automatique d’architecture peut émettre jusqu’à 284 tonnes de CO₂, l’équivalent approximatif de cinq allers-retours transatlantiques en voiture sur toute leur durée de vie. Ce chiffre correspond à un cas extrême — la recherche d’architecture neuronale (NAS), beaucoup plus coûteuse qu’un entraînement standard. Il a néanmoins eu le mérite de rendre visible un coût que les publications académiques n’avaient jamais l’habitude de mentionner.

Pour GPT-3 (OpenAI, 2020), les estimations de Google (Patterson et al., 2021) donnent ~552 tCO₂e avec un mix énergétique typique américain. Le même entraînement sur l’infrastructure Google, alimentée partiellement en renouvelable et compensée carbone, aurait produit ~21 tCO₂e selon ces mêmes auteurs. Un facteur de 26 — qui illustre à quel point la localisation du data center et la source d’électricité changent tout.

Pour les modèles plus récents, les données officielles sont rares. Meta a publié que l’entraînement de Llama 3 (405 milliards de paramètres) a mobilisé 6,4 millions d’heures-GPU sur des H100. À la consommation typique d’un H100 (~700 W), cela représente environ 4,5 GWh — soit, selon le mix énergétique, de l’ordre de 2 000 à 3 000 tCO₂e. Pour GPT-4, OpenAI n’a publié aucune donnée. Ces chiffres restent des estimations de tiers.


La consommation d’eau : le chiffre oublié

L’eau est le parent pauvre du débat environnemental sur l’IA. Les data centers refroidis par évaporation consomment de l’eau douce — à la fois directement sur site (tours de refroidissement) et indirectement via les centrales électriques qui les alimentent.

Li et al. (2023), dans la première étude académique systématique sur ce sujet, estiment que l’entraînement de GPT-3 a nécessité environ 700 000 litres d’eau. Plus parlant à l’échelle individuelle : une conversation de 20 à 50 questions avec un modèle de cette taille consommerait environ 500 ml d’eau — l’équivalent d’une bouteille en plastique. Ces chiffres sont des estimations et dépendent fortement du type de refroidissement et de la source d’électricité.

Microsoft a reconnu officiellement une hausse de 34 % de sa consommation d’eau entre 2021 et 2022, directement liée à l’entraînement de GPT-4. Goldman Sachs (2024) projette que les data centers d’IA générative pourraient consommer entre 15 et 23 milliards de litres d’eau par an d’ici 2027.


L’efficience par requête : argument solide ou écran de fumée ?

L’argument le plus courant dans les communications industrielles est celui de l’efficience par service rendu. Une requête à un LLM consomme entre 0,001 et 0,01 kWh — moins, selon certaines estimations, qu’une recherche Google classique.

Cet argument mérite d’être pris au sérieux, et d’être challengé simultanément.

Ce qu’il y a de solide : l’efficience par requête des modèles s’améliore rapidement. Des modèles comme Llama 3 8B ou Mistral 7B atteignent des performances comparables à GPT-3.5 sur de nombreuses tâches avec 10 à 100 fois moins d’énergie. L’optimisation algorithmique (loi de Chinchilla, 2022) a recentré la recherche sur l’entraînement compute-optimal plutôt que sur la course aux paramètres.

Ce qui pose question : Luccioni (2023) estime que ChatGPT consomme environ 10 fois plus d’énergie par requête qu’une recherche Google — à l’inverse de ce qu’affirment certaines communications d’entreprise. Surtout, l’argument de l’efficience unitaire ignore l’effet rebond : si chaque requête coûte moins cher, le volume d’usage explose. L’IA générative ne remplace pas d’autres activités — elle en crée de nouvelles. La consommation totale augmente même quand la consommation unitaire baisse.

L’Agence Internationale de l’Énergie (IEA, 2024) projette que la consommation électrique mondiale des data centers pourrait doubler entre 2022 et 2026, de 240 TWh à entre 500 et 1 000 TWh, avec l’IA comme principal moteur de cette croissance.


Compensations carbone : la question de la rigueur

Google, Microsoft et Meta achètent des certificats d’énergie renouvelable (RECs) pour “neutraliser” leurs émissions. La recherche académique soulève une limite structurelle de cette pratique : acheter un certificat d’énergie éolienne produite au Texas ne signifie pas que le data center en Virginie fonctionne effectivement à l’éolien à l’heure où la requête est traitée. Ligozat et al. (2022) ont analysé systématiquement ces arguments dans la littérature et montrent que la plupart des “greenwashing claims” dans l’IA reposent sur des compensations qui ne garantissent pas la causalité temporelle et géographique.

L’approche plus rigoureuse, dite “hourly matching” — correspondance heure par heure entre production renouvelable locale et consommation — est beaucoup plus rare. Google la pratique partiellement.

Par ailleurs, les rapports RSE de Google montrent une hausse de 48 % de ses émissions entre 2019 et 2023 malgré les engagements climatiques, et Microsoft affiche +30 % entre 2020 et 2023. Les compensations n’effacent pas la croissance réelle.


Le scope 3 : ce qu’on ne compte pas

La fabrication des GPU est rarement intégrée dans les bilans carbone des laboratoires. Un Nvidia H100 génère environ 150 kg de CO₂e à la production. Un data center moderne en compte des dizaines de milliers. L’infrastructure réseau, les câbles sous-marins, les cycles de remplacement des équipements — autant de postes qui n’apparaissent pas dans les chiffres communiqués.


Ce qu’il faut retenir

  • L’empreinte environnementale de l’IA se décompose en deux phases : le training (coût ponctuel, massif) et l’inference (coût unitaire faible, mais cumulé sur des milliards de requêtes).
  • L’entraînement d’un grand modèle émet de l’ordre de quelques centaines à quelques milliers de tonnes de CO₂e — un chiffre qui dépend autant de la localisation du data center et du mix électrique que de la taille du modèle.
  • La consommation d’eau est un impact souvent ignoré : ~500 ml estimés par conversation de 20-50 questions avec un modèle de la taille de GPT-3.
  • L’argument de l’efficience par requête est réel mais insuffisant : les gains unitaires sont compensés par la croissance des usages (effet rebond), et la consommation totale augmente.
  • La transparence est le problème central : la quasi-totalité des données sur les modèles propriétaires vient de l’industrie elle-même ou d’estimations de tiers. Aucun standard de reporting n’est imposé.

Sources