Claude ist nicht ein Modell — es ist eine Tier-Liste. Opus schlussfolgert am tiefsten, Sonnet ist das ausgewogene Arbeitstier, Haiku das schnelle günstige. Der häufigste Fehler in Teams ist, „zur Sicherheit" für alles die Spitze der Reihe zu wählen — und dann zuzusehen, wie die Rechnung für Arbeit steigt, die ein kleineres Modell mühelos erledigt hätte. Der umgekehrte Fehler — jeden harten Job durch Haiku zu zwingen, um Geld zu sparen — kostet dich still in Retries, falschen Antworten und menschlicher Nacharbeit. Die richtige Antwort ist fast nie „ein Modell". Sie lautet passe das Tier an die Aufgabe an.
Dieser Beitrag legt dar, worin jedes Claude-Tier tatsächlich gut ist, was die drei auf Brievio kosten, konkrete „Nutze X, wenn …"-Empfehlungen und ein Tiering-Muster, das leichte Arbeit an Haiku leitet und nur die härtesten Jobs zu Opus eskaliert. Jedes Tier auf Brievio ist das echte First-Party-Modell über AWS Bedrock — voller 200K-Kontext, native Tools, Vision und Caching — bepreist rund 15% unter Anthropics offizieller Liste.
Die drei Tiers auf einen Blick
Hier ist der gesamte Tradeoff an einem Ort — Brievio-Tarif (mit Anthropics offizieller Liste zum Vergleich), pro 1M Tokens, Input / Output:
- Claude Opus 4.7 — $4.25 / $21.25 (offiziell $5 / $25). Die tiefste Schlussfolgerung und das stärkste agentische Verhalten: lange mehrstufige Pläne, knifflige Refactorings, mehrdeutige Specs, Analyse auf Forschungsniveau. Das fähigste und das teuerste — bewusst das, zu dem du zuletzt greifst.
- Claude Sonnet 4.6 — $2.55 / $12.75 (offiziell $3 / $15). Das ausgewogene Produktiv-Arbeitstier und ein erstklassiger Coder. Für die meisten Teams ist das der Standard: stark genug für die große Mehrheit echter Arbeit, schnell genug, um responsiv zu wirken, so bepreist, dass du beim Volumen nicht zusammenzuckst.
- Claude Haiku 4.5 — $0.85 / $4.25 (offiziell $1 / $5). Schnell und günstig, gebaut für Jobs in hohem Volumen: Klassifikation, Extraktion, Routing, Tagging, kurze Transformationen. Fünfmal günstiger als Opus beim Input — und bei engen Aufgaben genauso korrekt.
Beachte den Abstand. Opus-Input ist 5× Haiku-Input; Opus-Output ist 5× Haiku-Output. Bei einer Pipeline, die Millionen Calls fährt, ist dieser Multiplikator der Unterschied zwischen einem Rundungsfehler und einer Position, nach der dein Finance-Team fragt. Die Kunst ist nicht, das „beste" Modell zu wählen — sondern zu wissen, welche Jobs das oberste Tier wirklich brauchen und welche nicht.
Nutze Haiku, wenn …
Haiku ist die richtige Wahl, wann immer die Aufgabe eng ist, der Output kurz und du viele davon fährst. Die Entscheidung je Call ist klein; auf das Volumen kommt es an.
- Klassifikation und Routing — Tickets labeln, Content taggen, Intent-Erkennung, Spam-Filterung, Sentiment. Die Antwort ist eine aus einer Handvoll Optionen; Haiku trifft sie richtig und kostet Cents pro Tausend.
- Strukturierte Extraktion — Felder aus Rechnungen, E-Mails oder Logs nach festem Schema in JSON ziehen. Kombiniere es mit Caching für das Schema, und die Kosten je Call runden auf null.
- Kurze Transformationen im großen Maßstab — einen Absatz zusammenfassen, eine Zeile umschreiben, einen Wert normalisieren, einen Slug erzeugen. Hohe Frequenz, geringer Einsatz je Call.
- Der günstige erste Durchlauf in einer getierten Pipeline — eine Triage, die entscheidet, ob ein größeres Modell überhaupt laufen muss (mehr dazu unten).
Wo Haiku schwächelt: mehrstufiges Schlussfolgern, feine Ermessensentscheidungen, langfristige Planung und alles, wo subtil falsch zu liegen teuer ist. Wenn du anfängst, um Haiku-Output herum Retry-Logik und Validatoren zu bauen, ist das das Signal, diesen Job ein Tier hochzuschieben.
Nutze Sonnet, wenn … (der Standard für die meisten Teams)
Bei Sonnet sollte der Großteil des Produktiv-Traffics liegen. Es ist ein erstklassiges Coding-Modell, befolgt komplexe Anweisungen zuverlässig und ist so bepreist, dass du es als alltäglichen Standard fahren kannst, ohne zu rationieren. Wenn du dir unsicher bist, welches Tier, fang hier an — und tiere dann zu Haiku herunter für die Volumenarbeit und zu Opus hoch für die wenigen Jobs, die es wirklich brauchen.
- Alltägliches Coding — Features schreiben, Bugs fixen, Tests generieren, Code-Review. Sonnet 4.6 ist hier echt stark und selten der Flaschenhals.
- Kundenseitige Assistenten und RAG-Chatbots — gutes Urteilsvermögen, kohärente lange Antworten, zuverlässige Tool-Nutzung, schnell genug für interaktive Latenz.
- Content- und Dokumenten-Workflows — Entwürfe, lange Dokumente zusammenfassen, strukturierten Content transformieren, wo Qualität zählt, du aber keine Schlussfolgerung auf Opus-Niveau brauchst.
- Die meisten Agent-Loops — Sonnet kommt mit Multi-Tool-Agenten gut zurecht. Reserviere Opus für die planungs- lastigen oder hochgradig mehrdeutigen.
Die ehrliche Einordnung: ein großer Teil der Teams könnte Sonnet für fast alles fahren und damit gut leben. Der Grund, überhaupt zu tieren, sind die Extreme — Millionen trivialer Calls oder eine Handvoll brutal schwerer —, denn dort zahlt sich das Anpassen des Modells an die Aufgabe am meisten aus.
Nutze Opus, wenn …
Opus ist aus gutem Grund das oberste Tier, aber es ist das, zu dem du bewusst greifst, nicht standardmäßig. Nutze es, wenn die Schwierigkeit die Kosten wirklich rechtfertigt — wenn eine falsche oder flache Antwort teurer ist als die zusätzlichen Tokens.
- Harte, langfristige agentische Arbeit — mehrstufige Pläne, die über viele Tool-Calls hinweg zusammenhalten müssen, wo Sonnet anfängt abzudriften oder den Faden zu verlieren.
- Knifflige Refactorings und Architektur — große dateiübergreifende Änderungen, heikle Migrationen, das Debuggen eines Problems, das sich über mehrere Systeme spannt.
- Mehrdeutige Specs und tiefe Analyse — Synthese auf Forschungsniveau, nuanciertes Urteilsvermögen, Probleme, die du deinem erfahrensten Engineer übergeben würdest.
- Das Eskalationsziel — das Modell, auf das deine Pipeline zurückfällt, wenn ein günstigeres Tier einen Fall als schwer markiert.
Wenn Opus und Sonnet bei deiner Aufgabe ununterscheidbare Antworten liefern, brauchte diese Aufgabe kein Opus — und du hast gerade rund das 1,7-Fache des Sonnet-Tarifs für nichts bezahlt. Der Weg, es zu wissen, ist, sie tatsächlich an deinen eigenen Prompts zu vergleichen, statt anzunehmen, das teure sei immer besser.
Das Muster: standardmäßig herunter-tiern, auf Anforderung eskalieren
Der Schritt mit der größten Hebelwirkung ist, aufzuhören, in einem Modell zu denken, und anzufangen, in einer Leiter zu denken. Zuerst das Günstige; eskaliere nur, wenn das Günstige nicht reicht. Weil jedes Brievio-Tier dieselbe base_url und dasselbe SDK teilt, ist der Tier-Wechsel eine einzeilige Änderung — nur der Modell-String bewegt sich.
# Ein Modell-Tiering-Muster: zuerst das Günstige, eskaliere nur bei Bedarf.
# Gleiche base_url, gleiches SDK — nur der Modell-String ändert sich je Tier.
from openai import OpenAI
client = OpenAI(
api_key="sk-brievio-...",
base_url="https://api.brievio.com/v1",
)
# Brievio-Tarife pro 1M Tokens (Input / Output):
# Haiku 4.5 $0.85 / $4.25 — schnell, günstig, hohes Volumen
# Sonnet 4.6 $2.55 / $12.75 — ausgewogenes Produktiv-Arbeitstier
# Opus 4.7 $4.25 / $21.25 — tiefste Schlussfolgerung, härteste Jobs
def triage(ticket: str) -> str:
"""Haiku entscheidet: schafft das ein günstiges Modell, oder eskalieren?"""
resp = client.chat.completions.create(
model="claude-haiku-4-5",
max_tokens=20,
messages=[
{"role": "system", "content": "Reply only EASY or HARD."},
{"role": "user", "content": ticket},
],
)
return resp.choices[0].message.content.strip()
def answer(ticket: str) -> str:
tier = "claude-sonnet-4-6" if triage(ticket) == "EASY" else "claude-opus-4-7"
resp = client.chat.completions.create(
model=tier,
max_tokens=800,
messages=[{"role": "user", "content": ticket}],
)
return resp.choices[0].message.content
# Die meisten Tickets lösen sich auf Haiku + Sonnet. Opus feuert nur bei der
# echt schweren Minderheit — die Durchschnittskosten je Ticket landen so weit
# unter einer reinen Opus-Pipeline.Die Ökonomie ist simpel: ein Triage-Call auf Haiku kostet einen Bruchteil eines Cents. Wenn er die leichte Mehrheit an Sonnet leitet und nur die harte Minderheit an Opus, landen deine Durchschnittskosten je Aufgabe weit unter einer reinen Opus-Pipeline — ohne Qualitätsverlust bei den Fällen, die das oberste Tier wirklich brauchten. Dieselbe Logik gilt umgekehrt für reine Volumenarbeit, wo Haiku den ganzen Job macht:
# Wo Haiku sich verdient macht: Klassifikation / Extraktion in hohem Volumen.
# Bei $0.85/1M Input kostet eine Million kurzer Dokumente Cents, keine Dollars.
import json
LABELS = ["bug", "feature_request", "billing", "spam", "other"]
def classify(text: str) -> str:
resp = client.chat.completions.create(
model="claude-haiku-4-5",
max_tokens=10,
messages=[
{"role": "system",
"content": f"Classify into exactly one of: {LABELS}. Reply with the label only."},
{"role": "user", "content": text},
],
)
return resp.choices[0].message.content.strip()
# 1.000.000 eingehende Nachrichten, ~300 Input-Tokens je, ~3 Output-Tokens je:
# Input: 300M Tokens × $0.85 / 1M = $255
# Output: 3M Tokens × $4.25 / 1M = ~$13
# Derselbe Job auf Opus würde ~5× den Input und ~5× den Output kosten — ohne
# Genauigkeitsgewinn bei einer so engen Aufgabe. Passe das Tier an die Schwierigkeit an.Zwei Muster, eine Idee: passe das Tier an die Schwierigkeit an. Volumen und leichte Arbeit gehen an Haiku, der Großteil der Produktion geht an Sonnet, und Opus ist den Jobs vorbehalten, die es verdienen. Weil fehlgeschlagene 4xx/5xx-Calls auf Brievio kostenlos sind, kostet dich ein Eskalations-Retry, der scheitert, nichts — der Zähler bewegt sich nur bei einer echten Completion.
Schnellauswahl nach Aufgabe
Wenn du einfach eine Antwort brauchst, fang hier an und passe nach dem Messen an deinen eigenen Prompts an:
- Klassifizieren / taggen / routen / extrahieren, im Volumen → Haiku 4.5.
- Alltägliches Coding, Bugfixes, Tests, Code-Review → Sonnet 4.6.
- Kundenseitiger Chatbot / RAG-Assistent → Sonnet 4.6.
- Entwerfen, zusammenfassen, Content-Workflows → Sonnet 4.6.
- Die meisten Multi-Tool-Agenten → Sonnet 4.6; eskaliere die planungslastigen Schritte zu Opus.
- Harte Refactorings, mehrdeutige Specs, tiefe Analyse → Opus 4.7.
- Unsicher? → Sonnet 4.6, dann herunter zu Haiku fürs Volumen und hoch zu Opus für die härtesten Jobs.
Nichts davon verlangt, sich vorab auf ein Tier festzulegen. Probier denselben Prompt auf Brievio über alle drei, vergleiche die Antworten und die Token-Zahlen, und lass die Ergebnisse das Tier wählen. Die vollständige Tarifkarte steht auf der Pricing-Seite; für die breitere Strategie, Kosten zu drücken, ohne Qualität zu verlieren, siehe das Kostenoptimierungs-Playbook und unseren Leitfaden zur Wahl eines KI-API-Gateways. Gut zu tiern ist der größte einzelne Hebel, den du hast — und er kostet nichts außer einem Modell-String.