Claude n’est pas un seul modèle — c’est une grille de paliers. Opus est le raisonneur le plus profond, Sonnet le cheval de trait équilibré, Haiku le rapide et bon marché. L’erreur la plus courante des équipes, c’est de choisir le haut de gamme pour tout « par précaution », puis de regarder la facture grimper pour un travail qu’un modèle plus petit aurait géré sans broncher. L’erreur inverse — forcer chaque tâche difficile à passer par Haiku pour économiser — te coûte en douce en reprises, en mauvaises réponses et en nettoyage humain. La bonne réponse n’est presque jamais « un seul modèle ». C’est ajuster le palier à la tâche.
Ce billet expose ce dans quoi chaque palier de Claude excelle réellement, ce que coûtent les trois sur Brievio, des conseils concrets du type « utilise X quand… », et un schéma de répartition qui dirige le travail facile vers Haiku et n’escalade que les tâches les plus dures vers Opus. Chaque palier sur Brievio est le véritable modèle de première main par-dessus AWS Bedrock — contexte complet de 200K, outils natifs, vision et cache — facturé environ 15 % sous le tarif catalogue officiel d’Anthropic.
Les trois paliers en un coup d’œil
Voici tout l’arbitrage en un seul endroit — tarif Brievio (avec le tarif catalogue officiel d’Anthropic en référence), par 1M de tokens, entrée / sortie :
- Claude Opus 4.7 — $4.25 / $21.25 (officiel $5 / $25). Le raisonnement le plus profond et le comportement agentique le plus solide : longs plans en plusieurs étapes, refactos velues, specs ambiguës, analyse de niveau recherche. Le plus capable et le plus cher — par conception, celui que tu sors en dernier.
- Claude Sonnet 4.6 — $2.55 / $12.75 (officiel $3 / $15). Le cheval de trait de production équilibré et un codeur d’élite. Pour la plupart des équipes, c’est le choix par défaut : assez solide pour la large majorité du travail réel, assez rapide pour rester réactif, facturé pour que tu ne grimaces pas devant le volume.
- Claude Haiku 4.5 — $0.85 / $4.25 (officiel $1 / $5). Rapide et bon marché, conçu pour les tâches à gros volume : classification, extraction, routage, étiquetage, courtes transformations. Cinq fois moins cher qu’Opus en entrée — et sur des tâches étroites, tout aussi juste.
Note l’écart. L’entrée d’Opus vaut 5× celle de Haiku ; la sortie d’Opus vaut 5× celle de Haiku. Sur un pipeline qui exécute des millions d’appels, ce multiplicateur fait la différence entre une erreur d’arrondi et une ligne de dépense sur laquelle ton équipe financière t’interroge. Le savoir- faire, ce n’est pas de choisir le « meilleur » modèle — c’est de savoir quelles tâches ont réellement besoin du palier supérieur et lesquelles non.
Utilise Haiku quand…
Haiku est le bon choix dès que la tâche est étroite, la sortie courte, et que tu en exécutes beaucoup. La décision par appel est minime ; c’est le volume qui compte.
- Classification et routage — étiqueter des tickets, taguer du contenu, détecter l’intention, filtrer le spam, le sentiment. La réponse est l’une d’une poignée d’options ; Haiku la trouve juste et coûte des centimes pour mille.
- Extraction structurée — extraire des champs de factures, e-mails ou logs vers du JSON selon un schéma fixe. Associe-le au cache pour le schéma et le coût par appel devient négligeable.
- Courtes transformations à l’échelle — résumer un paragraphe, réécrire une ligne, normaliser une valeur, générer un slug. Haute fréquence, faible enjeu par appel.
- La première passe bon marché d’un pipeline à paliers — le triage qui décide si un modèle plus gros a seulement besoin de tourner (plus de détails ci-dessous).
Là où Haiku peine : le raisonnement en plusieurs étapes, les jugements subtils, la planification à long horizon, et tout ce où une erreur subtile coûte cher. Si tu te surprends à ajouter de la logique de reprise et des validateurs autour de la sortie de Haiku, c’est le signal qu’il faut monter cette tâche d’un palier.
Utilise Sonnet quand… (le choix par défaut pour la plupart des équipes)
C’est sur Sonnet que la majeure partie du trafic de production devrait vivre. C’est un modèle de code d’élite, il suit fiablement des instructions complexes, et il est facturé pour que tu puisses l’utiliser comme défaut quotidien sans rationner. Quand tu hésites sur le palier à choisir, commence ici — puis descends vers Haiku pour le travail de volume et monte vers Opus pour les quelques tâches qui en ont vraiment besoin.
- Code au quotidien — écrire des fonctionnalités, corriger des bugs, générer des tests, relire du code. Sonnet 4.6 est réellement solide ici et rarement le goulot d’étranglement.
- Assistants en contact client et chatbots RAG — bon jugement, longues réponses cohérentes, usage d’outils fiable, assez rapide pour une latence interactive.
- Flux de contenu et de documents — rédaction, résumé de longs documents, transformation de contenu structuré où la qualité compte mais sans avoir besoin d’un raisonnement de niveau Opus.
- La plupart des boucles d’agent — Sonnet gère bien les agents multi-outils. Réserve Opus à ceux qui exigent beaucoup de planification ou sont très ambigus.
Le cadrage honnête : une large part des équipes pourrait faire tourner Sonnet pour presque tout sans souci. La raison de répartir en paliers, c’est que les extrêmes — des millions d’appels triviaux, ou une poignée de tâches brutalement difficiles — sont là où ajuster le modèle à la tâche rapporte le plus.
Utilise Opus quand…
Opus est le palier supérieur pour une raison, mais c’est celui que tu sors délibérément, pas par défaut. Utilise-le quand la difficulté justifie vraiment le coût — quand une réponse fausse ou superficielle coûte plus cher que les tokens supplémentaires.
- Travail agentique difficile à long horizon — des plans en plusieurs étapes qui doivent tenir sur de nombreux appels d’outils, là où Sonnet commence à dériver ou à perdre le fil.
- Refactos velues et architecture — gros changements multi-fichiers, migrations délicates, débogage d’un problème qui s’étend sur plusieurs systèmes.
- Specs ambiguës et analyse profonde — synthèse de niveau recherche, jugement nuancé, problèmes que tu confierais à ton ingénieur le plus chevronné.
- La cible d’escalade — le modèle vers lequel ton pipeline se rabat quand un palier moins cher signale un cas comme difficile.
Si Opus et Sonnet produisent des réponses indiscernables sur ta tâche, c’est que cette tâche n’avait pas besoin d’Opus — et tu viens de payer environ 1,7× le tarif de Sonnet pour rien. Le moyen de le savoir, c’est de les comparer réellement sur tes propres prompts, pas de supposer que le plus cher est toujours meilleur.
Le schéma : descendre de palier par défaut, escalader à la demande
Le levier le plus puissant, c’est d’arrêter de penser en un seul modèle et de commencer à penser en échelle. Fais d’abord le moins cher ; n’escalade que si le moins cher ne suffit pas. Comme chaque palier Brievio partage le même base_url et le même SDK, changer de palier est une modification d’une ligne — seule la chaîne de modèle bouge.
# Un schéma de répartition par paliers : fais d'abord le moins cher, n'escalade qu'au besoin.
# Même base_url, même SDK — seule la chaîne de modèle change selon le palier.
from openai import OpenAI
client = OpenAI(
api_key="sk-brievio-...",
base_url="https://api.brievio.com/v1",
)
# Tarifs Brievio par 1M de tokens (entrée / sortie) :
# Haiku 4.5 $0.85 / $4.25 — rapide, bon marché, gros volume
# Sonnet 4.6 $2.55 / $12.75 — cheval de trait de production équilibré
# Opus 4.7 $4.25 / $21.25 — raisonnement le plus profond, tâches les plus dures
def triage(ticket: str) -> str:
"""Haiku tranche : un modèle bon marché suffit-il, ou faut-il escalader ?"""
resp = client.chat.completions.create(
model="claude-haiku-4-5",
max_tokens=20,
messages=[
{"role": "system", "content": "Reply only EASY or HARD."},
{"role": "user", "content": ticket},
],
)
return resp.choices[0].message.content.strip()
def answer(ticket: str) -> str:
tier = "claude-sonnet-4-6" if triage(ticket) == "EASY" else "claude-opus-4-7"
resp = client.chat.completions.create(
model=tier,
max_tokens=800,
messages=[{"role": "user", "content": ticket}],
)
return resp.choices[0].message.content
# La plupart des tickets se règlent sur Haiku + Sonnet. Opus ne se déclenche que sur la
# minorité réellement difficile — le coût moyen par ticket finit donc bien en dessous d'un pipeline tout-Opus.L’économie est simple : un appel de triage sur Haiku coûte une fraction de centime. S’il dirige la majorité facile vers Sonnet et seulement la minorité difficile vers Opus, ton coût moyen par tâche finit bien en dessous d’un pipeline tout-Opus — sans perte de qualité sur les cas qui avaient réellement besoin du palier supérieur. La même logique s’applique en sens inverse pour le travail purement à gros volume, où Haiku fait toute la tâche :
# Là où Haiku gagne son pain : classification / extraction à gros volume.
# À $0.85/1M en entrée, un million de courts documents coûte des centimes, pas des dollars.
import json
LABELS = ["bug", "feature_request", "billing", "spam", "other"]
def classify(text: str) -> str:
resp = client.chat.completions.create(
model="claude-haiku-4-5",
max_tokens=10,
messages=[
{"role": "system",
"content": f"Classify into exactly one of: {LABELS}. Reply with the label only."},
{"role": "user", "content": text},
],
)
return resp.choices[0].message.content.strip()
# 1 000 000 de messages entrants, ~300 tokens d'entrée chacun, ~3 tokens de sortie chacun :
# entrée : 300M tokens × $0.85 / 1M = $255
# sortie : 3M tokens × $4.25 / 1M = ~$13
# La même tâche sur Opus coûterait ~5× l'entrée et ~5× la sortie sans aucun gain de
# précision sur une tâche aussi étroite. Ajuste le palier à la difficulté.Deux schémas, une seule idée : ajuster le palier à la difficulté. Le volume et le travail facile vont à Haiku, le gros de la production va à Sonnet, et Opus est réservé aux tâches qui le méritent. Comme les appels 4xx/5xx en échec sont gratuits sur Brievio, une reprise d’escalade qui échoue ne te coûte rien — le compteur ne bouge que sur une vraie complétion.
Choix rapide par tâche
Quand tu as juste besoin d’une réponse, pars d’ici et ajuste après mesure sur tes propres prompts :
- Classer / taguer / router / extraire, à gros volume → Haiku 4.5.
- Code au quotidien, corrections de bugs, tests, relecture → Sonnet 4.6.
- Chatbot en contact client / assistant RAG → Sonnet 4.6.
- Rédaction, résumé, flux de contenu → Sonnet 4.6.
- La plupart des agents multi-outils → Sonnet 4.6 ; escalade vers Opus les étapes lourdes en planification.
- Refactos difficiles, specs ambiguës, analyse profonde → Opus 4.7.
- Pas sûr ? → Sonnet 4.6, puis descends vers Haiku pour le volume et monte vers Opus pour les tâches les plus dures.
Rien de tout cela n’exige de s’engager sur un palier d’emblée. Essaie le même prompt sur les trois avec Brievio, compare les réponses et les décomptes de tokens, et laisse les résultats choisir le palier. La grille tarifaire complète est sur la page de tarifs ; pour la stratégie plus large de réduction des coûts sans perte de qualité, vois le guide d’optimisation des coûts et notre guide pour choisir une passerelle d’API d’IA. Bien répartir par paliers est le plus gros levier dont tu disposes — et il ne coûte rien qu’une chaîne de modèle.