Gemini — la réponse de Google

En bref

Gemini est la famille de modèles de langage développée par Google DeepMind. Contrairement à ses prédécesseurs (PaLM, Bard), elle a été conçue dès le départ pour être multimodale : un seul flux de traitement unifié pour le texte, les images, l’audio, la vidéo et le code, sans routage vers des modèles spécialisés distincts.

Lancée en décembre 2023, la famille s’est rapidement imposée sur les benchmarks de raisonnement et de code. Son atout distinctif reste la fenêtre de contexte : Gemini 1.5 Pro a introduit 1 million de tokens dès février 2024, un record à sa sortie. Depuis, la gamme s’est étoffée en trois générations (1.0, 1.5, 2.0, 2.5, 3.x) et couvre désormais l’ensemble du spectre, des modèles embarqués sur smartphone (Nano) aux systèmes de raisonnement avancé (Pro, Deep Think).

Fiche d’identité

Champ	Valeur
Organisation	Google DeepMind
Première version	Décembre 2023 (Gemini 1.0)
Type	Transformer multimodal natif, architecture MoE (Mixture of Experts)
Accès	Google AI Studio, Vertex AI, Gemini API, application Gemini
Fenêtre de contexte	1 million de tokens (standard) ; 2 millions pour certains usages enterprise

Historique

Décembre 2023 — Gemini 1.0. Google DeepMind annonce trois variantes : Ultra, Pro et Nano. Gemini Pro est intégré à Bard, Nano déployé sur le Pixel 8 Pro. Ultra reste réservé aux développeurs partenaires dans un premier temps.

Février 2024 — Gemini 1.5 Pro. Rupture architecturale majeure : introduction du Mixture of Experts (MoE) et fenêtre de contexte portée à 1 million de tokens. En mai 2024, Gemini 1.5 Flash complète la gamme lors du Google I/O, comme variante rapide et économique.

Décembre 2024 – février 2025 — Gemini 2.0. Gemini 2.0 Flash Experimental est annoncé le 11 décembre 2024, puis devient le modèle par défaut le 30 janvier 2025. Gemini 2.0 Flash-Lite est positionné comme le modèle le plus rapide et le moins coûteux de la famille, destiné aux déploiements à grande échelle.

Mars – juin 2025 — Gemini 2.5. Gemini 2.5 Pro Experimental paraît le 25 mars 2025. Il introduit le raisonnement adaptatif (thinking) avec un paramètre thinking_level (low/high) permettant de calibrer la profondeur d’analyse. Gemini 2.5 Flash suit au Google I/O de mai 2025, avant d’atteindre la disponibilité générale en juin 2025. La variante Deep Think, avec raisonnement approfondi, est documentée dans une model card publiée en août 2025.

Fin 2025 – début 2026 — Gemini 3.x. Google annonce Gemini 3 Pro et 3 Deep Think en novembre 2025, suivis de Gemini 3.1 Pro (19 février 2026) et Gemini 3.1 Flash Lite (3 mars 2026). La génération 3 introduit un dynamic thinking qui s’active automatiquement selon la complexité de la requête. [NON VÉRIFIÉ — sources secondaires uniquement pour cette période]

Capacités

Benchmarks (Gemini 2.5 Pro — sources : rapport technique Google DeepMind, model card officielle)

Benchmark	Score	Contexte
AIME 2024	92,0 % (pass@1)	Raisonnement mathématique
AIME 2025	86,7 %	Raisonnement mathématique
GPQA Diamond	84,0 %	Raisonnement scientifique avancé
SWE-Bench Verified	63,8 %	Résolution de bugs (avec agent)
MMMU	81,7 %	Raisonnement multimodal (texte + images + diagrammes)
Humanity’s Last Exam	18,8 %	Vs o3-mini : 14 %, Claude 3.7 Sonnet : 8,9 %
VideoMME	84,8 %	Compréhension vidéo
MRCGP médical	95,0 %	Vs performance humaine GP : 73,0 %
SimpleQA (factuel)	52,9 %	Inférieur à GPT-4.5 : 62,5 %

Multimodalité native

L’architecture Gemini traite en un seul flux le texte, les images, l’audio, la vidéo et le code. Il ne s’agit pas d’une assemblée de modèles spécialisés couplés a posteriori : la multimodalité est intégrée à l’entraînement. Gemini 2.5 Pro peut analyser jusqu’à trois heures de contenu vidéo en une seule requête.

Fenêtre de contexte

Gemini 1.5 Pro a introduit 1 million de tokens en 2024, un seuil inédit à l’époque. Gemini 2.5 Pro maintient 1 million de tokens en entrée ; certains déploiements via Vertex AI permettent 2 millions de tokens pour les usages enterprise.

Intégration Google

Les modèles Gemini bénéficient d’un accès natif à Google Search (grounding), ce qui réduit les hallucinations sur les faits courants en ancrant les réponses dans des résultats de recherche en temps réel. Gemini Nano est déployé directement sur les appareils Pixel, sans accès réseau nécessaire.

Capacités agentiques

Gemini 2.5 Pro prend en charge nativement le tool use : appels de fonctions, génération JSON structurée, exécution de code, recherche web. Il est explicitement optimisé par Google pour les workflows agentiques complexes.

Limites connues

Factualité : le point faible documenté

Sur SimpleQA, benchmark mesurant la précision factuelle sur des questions factuelles simples, Gemini 2.5 Pro obtient 52,9 % contre 62,5 % pour GPT-4.5. C’est l’écart le plus net en faveur d’un concurrent sur un benchmark majeur. Le taux d’erreurs factuelles mesuré sur SimpleQA atteint 37,1 % pour Gemini 2.5 Pro. Un biais de surconfiance est documenté : lorsque le modèle se trompe, il maintient une confiance élevée dans sa réponse.

Hallucinations persistantes

Gemini 3 Pro, malgré des résultats supérieurs sur certains benchmarks de fiabilité, présente des taux d’hallucination qui demeurent élevés selon The Decoder [NON VÉRIFIÉ — source unique]. Le score de 3,3 % obtenu par Gemini 2.5 Flash-Lite sur le leaderboard Vectara doit être lu avec prudence : il mesure la tâche spécifique du résumé de documents courts et ne généralise pas à d’autres domaines.

Disponibilité partielle

Gemini Ultra 1.0 n’a jamais été accessible via une API ouverte au grand public, limité à l’abonnement Google AI Ultra. Certaines fonctionnalités de Gemini 2.5 Pro (Deep Think) étaient à accès restreint lors du lancement. La disponibilité des versions 3.x reste partiellement incertaine à la date de rédaction [NON VÉRIFIÉ].

Contexte long : performances non garanties

La fenêtre de 1 million de tokens est disponible, mais la précision de rappel de l’information se dégrade sur certaines tâches au-delà de certains seuils. Ce phénomène est documenté qualitativement mais pas quantifié précisément dans les sources consultées [NON VÉRIFIÉ].

Ce qu’il faut retenir

Gemini figure parmi les meilleurs systèmes disponibles sur le raisonnement mathématique et scientifique, avec Gemini 2.5 Pro en tête sur plusieurs benchmarks majeurs.
Son architecture multimodale native — un seul flux pour texte, images, audio, vidéo et code — le distingue structurellement de la concurrence.
La fenêtre de contexte d’un million de tokens, introduite dès 2024, reste un avantage concurrentiel documenté.
Le principal angle mort est la factualité brute : Gemini sous-performe GPT-4.5 sur SimpleQA, avec un taux d’erreurs de 37,1 %.
L’écosystème — Google AI Studio, Vertex AI, API, application grand public, déploiement on-device via Nano — forme un continuum que peu de concurrents peuvent répliquer à cette échelle.