En bref
Un agent LLM peut appeler le bon outil au premier passage et le mauvais au second, sans que les métriques d’infrastructure ne le signalent. L’observabilité LLM répond à ce problème : tracer chaque étape du raisonnement, mesurer la qualité des outputs, détecter les dérives. Plusieurs plateformes spécialisées se sont imposées depuis 2023 — LangSmith, Arize Phoenix, Helicone, OpenLLMetry, Braintrust — avec des architectures et des modèles économiques très différents. Un standard émerge côté outillage : les semantic conventions GenAI d’OpenTelemetry, encore en phase Development en mars 2026.
Pourquoi l’observabilité LLM n’est pas du monitoring classique
Les outils APM traditionnels (Application Performance Monitoring) sont conçus pour des systèmes déterministes : une requête SQL produit toujours le même résultat pour les mêmes paramètres. Les LLM sont stochastiques par nature. Deux appels identiques peuvent produire des outputs différents ; un agent peut réussir une tâche dans un contexte et échouer dans un contexte légèrement modifié.
Cette différence structurelle crée des angles morts : un APM classique peut signaler que la latence est normale et que tous les tokens ont été consommés, sans détecter qu’une réponse est hors sujet ou qu’un appel d’outil a produit un argument invalide. Une critique directe formulée dans la littérature : “If your ‘LLM observability’ looks indistinguishable from traditional APM — just with tokens instead of SQL queries — you’re monitoring infrastructure, not AI behavior” (Dev.to, 2025).
Les métriques pertinentes pour les agents en production combinent donc deux couches distinctes : infrastructure (latence, coût, taux d’erreur) et comportement (pertinence des outputs, qualité du raisonnement, cohérence des appels d’outils).
Les cinq outils principaux
LangSmith
Développé par LangChain, LangSmith a démarré en 2023 pour résoudre les problèmes d’observabilité internes à l’écosystème LangChain, puis s’est étendu à d’autres frameworks. Il propose du tracing granulaire (chaque étape du raisonnement agent, tool calls, latence P50/P99), des dashboards personnalisables, des alertes via webhooks ou PagerDuty, et des évaluations automatisées avec scoring LLM-as-a-judge.
Adoption déclarée : plus de 25 000 équipes actives mensuellement, 15 milliards de traces traitées, plus de 300 clients enterprise (Klarna, Snowflake, Boston Consulting Group). LangChain a atteint le statut de licorne en octobre 2025 après une Series B de 125 M$ (Contrary Research).
Limites : le pricing à $0,50 pour 1 000 traces est critiqué pour les volumes production. La réputation de couplage avec l’écosystème LangChain persiste malgré la déclaration de neutralité framework — “vendor lock-in and spotty support across diverse stacks” (ClickITTech, 2026).
Arize Phoenix
Phoenix est la plateforme open-source d’Arize, auto-hébergeable, construite sur OpenTelemetry et la spécification OpenInference. Pas de feature gates : toutes les fonctionnalités sont disponibles sans licence commerciale. Elle couvre les appels LLM, les exécutions d’outils, les opérations de retrieval, et le raisonnement agent complet. Compatibilité déclarée : OpenAI Agents SDK, Claude Agent SDK, LangGraph, LlamaIndex, CrewAI, DSPy, AWS Bedrock, et d’autres.
OpenInference est la spécification d’attributs développée par Arize en complément d’OpenTelemetry : elle définit des champs spécifiques aux LLM (llm.input_messages, llm.token_count.prompt, etc.) et des types de spans propres aux workflows IA (LLM, RETRIEVER, RERANKER, EMBEDDING, TOOL, AGENT, GUARDRAIL).
Adoption communautaire : 7 800+ GitHub stars [NON VÉRIFIÉ : chiffre à date unique, source unique]. Cité comme plus actif en termes de commits que Langfuse dans une analyse comparative (ZenML, 2025) [NON VÉRIFIÉ : non corroboré par une seconde source].
Helicone
Helicone (YC W23) adopte une architecture proxy plutôt que SDK : l’intégration se résume à changer l’endpoint API (une ligne de code). La stack technique repose sur Cloudflare Workers, ClickHouse et Kafka. Latence ajoutée déclarée : 50–80 ms [NON VÉRIFIÉ : chiffre auto-déclaré].
Fonctionnalités : caching intégré, rate limiting, routage avec fallbacks automatiques vers plus de 100 providers, tracking de coût automatique, analytics de latence. La plateforme se positionne comme “AI Gateway” — son composant routing a été réécrit en Rust. Tier gratuit : 10 000 requêtes/mois. 2 milliards d’interactions LLM traitées (chiffre auto-déclaré).
La limite principale de l’approche proxy : elle capture les échanges API mais ne voit pas l’intérieur du raisonnement agent (pas de trace des étapes intermédiaires si elles n’émettent pas de requêtes HTTP distinctes).
OpenLLMetry
OpenLLMetry est une bibliothèque d’instrumentation open-source créée par Traceloop, startup israélienne. Elle étend OpenTelemetry avec des attributs LLM (nom du modèle, tokens prompt/completion, température, latence, erreurs) et est compatible avec tout backend OTel existant — Datadog, Dynatrace, Langfuse, et d’autres.
En 2025, ServiceNow a acquis Traceloop pour un montant estimé à 60–80 M$ (Calcalist Tech, 2025) [NON VÉRIFIÉ : les chiffres du seed round de mai 2025 (6,1 M$) et de l’acquisition proviennent de sources différentes ; la timeline exacte entre les deux n’est pas confirmée]. L’équipe a annoncé qu’OpenLLMetry resterait open-source, et que la technologie serait intégrée dans l’AI Control Tower de ServiceNow — un dashboard de gouvernance centralisée des agents. Cette intégration dans un produit propriétaire crée une tension structurelle dont l’évolution n’est pas encore documentée.
Braintrust
Braintrust se différencie par l’intégration native des évaluations dans le workflow d’observabilité. Sa base de données interne (Brainstore) est conçue pour requêter rapidement des millions de traces. La fonctionnalité Loop génère automatiquement des prompts, scorers et datasets à partir des données de production.
Financement en février 2026 : Series B de 80 M$ menée par ICONIQ Growth, avec participation a16z et Greylock. Valorisation : 800 M$ (Axios, 2026). Certifications : SOC 2 Type II, GDPR, HIPAA.
Limite identifiable : la plateforme est SaaS propriétaire, sans option self-hosted documentée dans les sources consultées, ce qui peut poser des contraintes de souveraineté des données.
Le standard émergent : OpenTelemetry GenAI
OpenTelemetry (OTel) est le standard ouvert de l’industrie pour le tracing, les métriques et les logs — géré par la CNCF (Cloud Native Computing Foundation, Linux Foundation). Depuis avril 2024, un groupe de travail spécifique (SIG GenAI) développe des semantic conventions pour les systèmes IA générative : attributs standardisés pour les appels LLM, les agents, les embeddings, et les opérations de retrieval.
Le principe est simple : plutôt que chaque outil invente ses propres noms de champs, toutes les plateformes exportent des traces dans un format commun. Cela permet de changer d’outil d’observabilité sans modifier le code d’instrumentation.
En mars 2026, ces conventions restent en statut Development — pas encore Stable. Datadog les supporte à partir de la version 1.37, mais conserve l’ancien format par défaut. OpenInference (Arize) et les conventions GenAI OTel coexistent sans convergence formelle annoncée, ce qui représente un risque de fragmentation à moyen terme (OpenTelemetry blog, 2024).
Un point de friction documenté : “many OTel-based LLM instrumentation libraries don’t strictly adhere to evolving conventions, resulting in vendor-specific solutions” (OpenTelemetry blog, 2024). La convergence est un objectif déclaré, pas un état atteint.
Tableau comparatif
| Outil | Modèle | Architecture | Forces | Limites |
|---|---|---|---|---|
| LangSmith | SaaS propriétaire | SDK | Intégration LangGraph, evals intégrés, adoption large | Pricing volume, perception lock-in LangChain |
| Arize Phoenix | Open source | OTel + OpenInference | Auto-hébergeable, framework-agnostic, aucun feature gate | Chiffres d’adoption peu documentés |
| Helicone | Open source + proxy | Proxy HTTP | Intégration 1 ligne, AI gateway, 100+ providers | Pas de trace du raisonnement interne agent |
| OpenLLMetry | Open source | OTel natif | Compatible tout backend OTel, instrumentation standard | Incertitude post-acquisition ServiceNow |
| Braintrust | SaaS propriétaire | SDK + Brainstore DB | Evals intégrés au workflow, base de données traces dédiée | SaaS uniquement, coût en production haute volumétrie |
Adoption réelle : deux chiffres à mettre en perspective
Deux enquêtes de 2025 donnent des chiffres très différents. Le State of AI Agent Engineering de LangChain indique que 89 % des répondants ont implémenté une forme d’observabilité pour leurs agents (LangChain, 2025). Le Grafana Observability Survey 2025 indique que l’observabilité LLM est utilisée “en production, extensivement ou exclusivement” par seulement 7 % des répondants généralistes (Grafana Labs, 2025).
L’écart s’explique par le biais de sélection : le survey LangChain porte sur des utilisateurs déjà engagés sur les agents et l’outillage associé. La fourchette Grafana, portant sur un public généraliste, reflète probablement mieux l’adoption réelle du marché.
Limites et zones non résolues
Trois problèmes structurels restent ouverts.
Absence de benchmarks indépendants. Tous les chiffres de performance disponibles (latence ajoutée, fiabilité des traces, couverture) sont auto-déclarés par les éditeurs. Aucune étude comparative indépendante en conditions de production réelles n’a été identifiée dans les sources consultées.
Mesurer la qualité, pas seulement l’infrastructure. Les métriques de coût et de latence sont capturables facilement. La qualité du raisonnement d’un agent — a-t-il fait le bon choix, appelé le bon outil, produit une réponse juste — nécessite des évaluations (LLM-as-a-judge, feedback humain) qui sont plus complexes à automatiser et à interpréter. La plupart des outils proposent ces fonctionnalités, mais leur efficacité en production n’est pas documentée de manière indépendante.
Fragmentation et coût total de possession. Les données de production peuvent se trouver dans un outil (LangSmith), les évaluations dans un autre (Braintrust), le monitoring infrastructure dans un troisième (Datadog). Cette dispersion ralentit l’itération. OTel est présenté comme la couche de transport universelle pour réduire ce problème — mais les conventions restent instables et l’adoption réelle est hétérogène.
Ce qu’il faut retenir
- L’observabilité LLM diffère de l’APM classique : les outputs non-déterministes des agents exigent de tracer le raisonnement, pas seulement l’infrastructure.
- LangSmith (SaaS, adoption large), Arize Phoenix (open source, OTel natif), Helicone (proxy, intégration minimale), OpenLLMetry (instrumentation standard), et Braintrust (evals intégrés) couvrent des cas d’usage distincts.
- OpenTelemetry GenAI Semantic Conventions est le standard en construction — en statut Development en mars 2026, soutenu par Datadog, Langfuse, Arize et d’autres, mais pas encore stabilisé.
- Aucun benchmark indépendant ne compare ces outils en production réelle : les chiffres disponibles sont auto-déclarés.
- Le risque de fragmentation est réel : deux spécifications coexistent (OTel GenAI et OpenInference d’Arize) sans convergence formelle annoncée.
Sources
- OpenTelemetry, “An Introduction to Observability for LLM-based applications using OpenTelemetry”, 2024
- OpenTelemetry, “OpenTelemetry for Generative AI”, 2024
- OpenTelemetry, “AI Agent Observability — Evolving Standards and Best Practices”, 2025
- OpenTelemetry Semantic Conventions, “Semantic conventions for generative AI systems”
- Arize AI, “OpenInference specification”
- LangChain, “State of AI Agent Engineering”, 2025
- Grafana Labs, “Observability Survey Report 2025”
- Braintrust, “Announcing Series B”, 2026
- Axios, “AI observability startup Braintrust raises $80M at an $800M valuation”, 2026
- Calcalist Tech, “ServiceNow buys Traceloop in $60-$80 million deal”, 2025
- Traceloop, “Traceloop is joining ServiceNow”, 2025
- Datadog, “Datadog LLM Observability natively supports OpenTelemetry GenAI Semantic Conventions”, 2024
- ZenML, “Langfuse vs Phoenix: Which One’s the Better Open-Source Framework?”
- Contrary Research, “LangChain Business Breakdown & Founding Story”
- Greptime, “Agent Observability: Can the Old Playbook Handle the New Game?”, 2025