En bref

Claude est la famille de modèles de langage développée par Anthropic, laboratoire fondé en 2021 par d’anciens chercheurs d’OpenAI. La gamme se décline en trois tiers nommés par ordre croissant de puissance : Haiku (léger, économique), Sonnet (équilibre coût-performance), Opus (flagship, tâches complexes). Depuis mars 2024, chaque génération suit cette nomenclature.

Ce qui distingue Claude de ses concurrents directs tient à deux aspects : une technique d’alignement propriétaire appelée Constitutional AI, et un positionnement marqué sur les tâches longues et autonomes — analyse de documents volumineux, workflows agentiques, contrôle d’interface. Le modèle ne génère pas d’images et n’a pas accès à internet sans outils explicites.


Fiche d’identité

ChampValeur
OrganisationAnthropic (San Francisco, fondée 2021)
Première versionClaude 1, mars 2023
TypeModèle de langage multimodal (texte + vision)
AccèsAPI (platform.claude.com), interface claude.ai, plans Enterprise
Fenêtre de contexte200 000 tokens (standard) — 1 million tokens (beta, Opus 4.6 et Sonnet 4.6)

Historique

Claude 1 (mars 2023). Lancement public en deux variantes : Claude (flagship) et Claude Instant (plus rapide, moins coûteux). Positionnement déclaré : « helpful, honest, and harmless ». Disponible via API et claude.ai.

Claude 2 (juillet 2023). Améliorations en coding, mathématiques et raisonnement. La version 2.1 (novembre 2023) introduit la fenêtre contextuelle 200 000 tokens, ciblant les usages entreprise — juridique, finance, recherche documentaire.

Claude 3 (mars 2024). Première utilisation de la nomenclature Opus / Sonnet / Haiku. Introduction des capacités vision : analyse d’images, charts, documents PDF. Trois tiers de performance et de prix clairement distincts.

Claude 3.5 Sonnet (juin 2024). Modèle mid-tier qui dépasse en performance le flagship de la génération précédente. Modifie la perception des développeurs sur la sélection de modèles. La version v2 (octobre 2024) introduit Computer Use — premier modèle IA à contrôler directement une interface ordinateur.

Claude 3.7 Sonnet (février 2025). Introduction de l’extended thinking : raisonnement hybride permettant au modèle de « penser étape par étape » avant de répondre, avec un budget de tokens de réflexion configurable.

Claude 4 — Opus 4 et Sonnet 4 (mai 2025). SWE-bench Verified : Opus 4 à 72,5% (79,4% en high-compute), Sonnet 4 à 72,7%. Modèles hybrides combinant réponse instantanée et extended thinking. Opus 4 capable d’opérer plusieurs heures en continu. Tarification Opus 4 : 15 $/1M tokens en entrée, 75 $ en sortie.

Claude 4.5 (2025). Sonnet 4.5 (septembre 2025) : SWE-bench 77,2%, OSWorld 61,4%, GPQA Diamond 83,4%, AIME Python 100%. Opération autonome documentée sur plus de 30 heures. Haiku 4.5 (octobre 2025) : performances proches de Sonnet 4 à un tiers du coût (1 $/5 $ par million de tokens). Opus 4.5 (novembre 2025) : améliorations en coding et tâches bureautiques, taux de réponse problématique à 0,22% sur requêtes violatives single-turn.

Claude 4.6 (février 2026). Sonnet 4.6 (17 février) : SWE-bench 79,6%, OSWorld 72,5%, premier modèle Sonnet préféré à l’Opus de la génération précédente en évaluation coding (70% des cas vs Sonnet 4.5, 59% vs Opus 4.5). Introduit la fenêtre 1M tokens en beta. Opus 4.6 (5 février) : ajout des agent teams, intégration dans PowerPoint. Tarification des deux : 5 $/25 $ — soit une réduction de 66% par rapport à Opus 4.


Capacités

Benchmarks publiés (données constructeur)

ModèleSWE-benchOSWorldGPQA Diamond
Claude 3.5 Sonnet64% (interne)
Claude Opus 472,5% (79,4% high-compute)
Claude Sonnet 472,7%
Claude Sonnet 4.577,2%61,4%83,4%
Claude Sonnet 4.679,6%72,5%

SWE-bench Verified mesure la résolution de bugs réels dans des dépôts open-source. OSWorld évalue le contrôle d’interface sur un système d’exploitation en conditions réelles.

Points forts documentés

Coding et résolution de bugs. Claude occupe les premières positions sur SWE-bench depuis plusieurs générations. Sonnet 4.6 atteint 79,6%, Sonnet 4.5 avait enregistré 100% sur AIME Python.

Raisonnement multi-étapes. L’extended thinking (depuis 3.7) permet un budget de réflexion configurable avant la réponse finale. Utile pour les problèmes mathématiques, logiques ou d’ingénierie.

Analyse de documents longs. Contexte standard de 200 000 tokens (environ 500 pages). La beta 1M tokens sur Opus 4.6 et Sonnet 4.6 couvre des corpus entiers de documentation ou de code.

Contrôle d’interface. Computer Use (depuis 3.5 Sonnet v2) permet à Claude de contrôler un navigateur ou un bureau. OSWorld 72,5% sur Sonnet 4.6 en fait le modèle le plus performant mesuré sur cette tâche à cette date.

Vision. Disponible depuis Claude 3. Jusqu’à 600 images ou pages PDF par requête. Interprétation de charts, graphiques, tableaux.


Limites connues

Pas de génération d’images. Claude analyse des images en entrée mais ne produit pas d’images en sortie. Capacité absente nativement, sans annonce de feuille de route.

Hallucinations. Le taux varie selon les tâches : environ 4,4% sur la synthèse de documents standard, autour de 10% sur des benchmarks difficiles pour Opus 4 (source : Suprmind, 2026). Les modèles en extended thinking peuvent « sur-penser » et s’éloigner du matériau source. Le Constitutional AI incite le modèle à signaler son incertitude plutôt qu’à halluciner avec assurance — ce qui réduit les erreurs confiantes, mais pas les erreurs totales.

Knowledge cutoff. Sonnet 4.5 : juillet 2025. Les versions 4.6 n’ont pas de date de cutoff publiée explicitement dans les sources disponibles. Sans outil de recherche web, Claude ne dispose pas d’information en temps réel.

Erreurs sur le code long. Des erreurs ont été documentées lors de la génération d’un seul bloc de code très long. La pratique recommandée est de décomposer en étapes.

Pas d’accès internet natif. Sauf via des outils externes (MCP servers, web search intégré selon les plans). Claude opère sur sa connaissance figée par défaut.


Ce qu’il faut retenir

Claude est une famille de modèles dont la progression est mesurable sur trois ans : SWE-bench passe de 64% (3.5 Sonnet) à 79,6% (Sonnet 4.6) en deux ans de générations. La compression du gap entre tiers — Sonnet 4.6 désormais préféré à Opus 4.5 en coding — reflète une stratégie de densification des modèles intermédiaires.

Les points forts objectifs sont le coding, l’analyse de documents longs et le contrôle d’interface. Les limites structurelles restent le knowledge cutoff, l’absence de génération d’images, et un taux d’hallucination non négligeable sur les tâches difficiles.

Le positionnement tarifaire a évolué : Opus 4.6 à 5 $/25 $ là où Opus 4 était à 15 $/75 $. Cette réduction de 66% en moins d’un an indique une pression concurrentielle significative, et non un choix isolé d’Anthropic.


Sources