Les modèles Mistral — de Mixtral à Mistral Large 3

En bref

Mistral AI est une startup française fondée en 2023 par d’anciens ingénieurs de Meta et Google DeepMind. En moins de trois ans, elle a construit une gamme complète de modèles de langage, du petit modèle embarqué au frontier model open-weight. Sa signature : l’architecture Mixture of Experts (MoE), qui permet d’atteindre des performances élevées avec un coût d’inférence réduit, et une politique de licences ouvertes (Apache 2.0) sur la majorité de sa gamme. Mistral représente aujourd’hui la principale alternative européenne aux géants américains dans la course aux grands modèles de langage.

Fiche d’identité

Champ	Valeur
Organisation	Mistral AI (Paris, France)
Première version	Mistral 7B — septembre 2023
Type	Frontier lab, startup
Accès	Open-weight (Apache 2.0) pour la majorité des modèles ; API propriétaire via la-plateforme.mistral.ai
Architecture clé	Transformer décodeur, Sparse Mixture of Experts (SMoE), sliding window attention

Historique

Mistral AI entre dans la compétition en septembre 2023 avec un modèle de 7 milliards de paramètres qui surprend le secteur : le Mistral 7B surpasse Llama 2 13B sur l’ensemble des benchmarks malgré une taille deux fois inférieure. Le signal est clair — la densité paramétrique n’est pas le seul facteur de performance.

Trois mois plus tard, décembre 2023, Mixtral 8x7B introduit l’architecture SMoE dans la gamme publique. Le modèle totalise 46,7 milliards de paramètres, mais n’en active que 12,9 milliards par token. Résultat : des performances comparables à GPT-3.5 et Llama 2 70B, avec une vitesse d’inférence six fois supérieure à ce dernier. Le score MT-Bench de la version instruisée atteint 8,3.

2024 voit la gamme se diversifier rapidement. Mistral Large (v1) en février cible le segment concurrent à GPT-4, avec une fenêtre de contexte de 128 000 tokens. Codestral arrive en mai — 22 milliards de paramètres, compatible avec plus de 80 langages de programmation. En juillet, Mistral NeMo (12B, coproduit avec NVIDIA) ajoute le support de onze langues dont l’arabe, le chinois et le japonais. Mistral Large 2 (123B) suit la même semaine, avec des améliorations marquées sur le code, les mathématiques et le raisonnement. En septembre, Pixtral 12B inaugure la vision dans la gamme : un encodeur vision de 400 millions de paramètres, entraîné from scratch, associé au décodeur NeMo.

2025 poursuit sur la même trajectoire. Mistral Small 3.1 (24B, mars) unifie multimodal et multilinguisme sur 21 langues, déployable sur un seul GPU RTX 4090 ou un Mac M avec 32 Go de RAM. Mistral Medium 3 (mai) se positionne sur le segment enterprise avec des performances revendiquées à plus de 90 % de Claude Sonnet 3.7 sur l’ensemble des benchmarks, à un tarif inférieur. En juin, les Magistral Small et Medium inaugurent le raisonnement par chaîne de pensée dans la gamme. Décembre 2025 marque un tournant : Mistral Large 3 (675B totaux, 41B actifs, architecture MoE granulaire, fenêtre de 256k tokens, Apache 2.0) atteint la deuxième place parmi les modèles open-source non-raisonnement sur LMArena, et la famille Ministral 3 propose des modèles denses en trois tailles (3B, 8B, 14B paramètres) pour les déploiements embarqués — téléphones, drones, robots.

En mars 2026, Mistral Small 4 (119B totaux, 6B actifs, 128 experts, fenêtre 256k, Apache 2.0) est le premier modèle de la gamme à unifier en un seul poids instruction following, raisonnement configurable, multimodal et coding agentique.

Capacités

Le point distinctif de Mistral est son rapport paramètres actifs / performance. L’architecture SMoE — héritée des travaux fondateurs sur les Mixture of Experts — permet à des modèles comme Mixtral 8x7B ou Mistral Large 3 de disposer d’une capacité paramétrique élevée tout en ne calculant qu’une fraction des poids à chaque inférence. Le mécanisme est simple : un réseau de routage sélectionne, pour chaque token, les deux à quatre experts (blocs feedforward spécialisés) les plus pertinents parmi N disponibles. La capacité totale du modèle augmente sans que le coût d’un forward pass n’augmente proportionnellement.

Sur les benchmarks publiés, Mixtral 8x7B égale ou surpasse Llama 2 70B et GPT-3.5 sur la majorité des tâches, avec une inférence six fois plus rapide. Mistral Large 2 (123B) se positionne sur le même segment que les modèles frontier de 2024 pour le code, les mathématiques et le raisonnement multilingue. Mistral Medium 3 revendique plus de 90 % des performances de Claude Sonnet 3.7 à un coût inférieur ($0,4/M tokens en entrée, $2/M tokens en sortie).

Mistral Large 3 (675B/41B actifs) figure en décembre 2025 au rang #2 des modèles open-source non-raisonnement et #6 global OSS sur LMArena, aux côtés de Meta Llama 3 et Alibaba Qwen3-Omni.

La gamme couvre aussi les cas d’usage edge : Ministral 3 (3B à 14B) est conçu pour fonctionner on-device sur téléphones, laptops, drones et robots. Mistral Small 3.1 tourne sur un seul GPU grand public à environ 150 tokens par seconde.

La politique de licences ouvertes (Apache 2.0 sur la majorité des modèles) est un avantage compétitif réel pour les développeurs et les entreprises qui souhaitent déployer sans dépendance API.

Limites connues

Mistral ne dispose pas, à ce jour, de modèle dense équivalent aux 400B+ de Meta (Llama 3.1 405B) ou aux modèles fermés de première ligne (GPT-4o, Claude 3.5 Sonnet, Gemini Ultra). Mistral Large 3 atteint 675B paramètres totaux, mais 41B seulement sont actifs par token — la comparaison directe avec un modèle dense de même taille n’est pas applicable. L’efficacité MoE est réelle, mais la capacité de mémorisation et de généralisation d’un modèle dense de très grande taille reste une question ouverte.

L’intégration multimodale de la gamme est plus récente que celle des concurrents. Pixtral 12B (2024) est le premier modèle vision de Mistral, alors qu’OpenAI et Google disposaient de capacités vision depuis 2023. La maturité de l’encodeur vision sur des tâches complexes (raisonnement spatial, compréhension de documents) reste à évaluer indépendamment des annonces officielles.

L’écosystème tiers — plugins, intégrations, outils communautaires — est significativement plus réduit que celui d’OpenAI ou Google. Le nombre de déploiements documentés et d’intégrations natives dans des outils professionnels (IDE, plateformes no-code, CRM) est inférieur à la concurrence américaine.

La politique de licences n’est pas uniforme. Codestral utilise la Mistral AI Non-Production License, qui interdit les usages commerciaux sans accord spécifique. Pour une organisation cherchant une licence uniforme sur l’ensemble de la gamme, cette hétérogénéité impose une vérification cas par cas.

Enfin, la transparence publique sur les méthodes d’alignement (RLHF, red teaming, évaluations de sécurité) est inférieure à celle d’Anthropic ou d’OpenAI, ce qui rend l’évaluation indépendante du comportement des modèles dans les cas limites plus difficile.

Ce qu’il faut retenir

Mistral AI a construit en moins de trois ans une gamme de modèles qui rivalise sur plusieurs segments avec les acteurs américains, en open-weight et à coût réduit.
L’architecture Mixture of Experts est au cœur de cette stratégie : elle permet de maximiser la capacité paramétrique sans augmenter linéairement le coût d’inférence.
La gamme couvre de l’edge (Ministral 3B) au frontier (Mistral Large 3), et inclut multimodal, code, raisonnement et multilinguisme.
La politique Apache 2.0 sur la majorité des modèles est un différenciateur fort pour les cas d’usage nécessitant un déploiement local ou sans dépendance à un fournisseur d’API.
Les limites sont réelles : écosystème tiers plus étroit, multimodal plus récent, licences hétérogènes.

Sources

Annonce Mistral 7B — Mistral AI
Annonce Mixtral 8x7B — Mistral AI
Papier Mixtral of Experts — arXiv
Benchmarks Mixtral 8x7B — Arize AI
Annonce Mistral NeMo — Mistral AI
Partenariat NVIDIA — NVIDIA Blog
Annonce Pixtral 12B — Mistral AI
Annonce Mistral Large 2 — Mistral AI
TechCrunch — Mistral Large 2
Annonce Mistral Small 3.1 — Mistral AI
Specs Mistral Small 3.1 — LLM Stats
Annonce Mistral Medium 3 — Mistral AI
Annonce Mistral 3 (Large 3 + Ministral 3) — Mistral AI
TechCrunch — Mistral 3
Architecture Mistral Large 3 — Intuition Labs
Annonce Mistral Small 4 — Mistral AI
Specs Mistral Small 4 — MarkTechPost
Documentation officielle modèles — Mistral AI
Magistral / Devstral 2026 — Serenitiesai
Comparaison ChatGPT vs Mistral — Leanware