In einem Begleitbeitrag haben wir getestet, ob ein Gateway dir ehrliche Token-Zahlen in Rechnung stellt. Hier geht es um das andere Versprechen: ob das Modell hinter dem Namen tatsächlich das Modell ist. Ein Wiederverkäufer kann etwas zurückgeben, das sich claude-sonnet-4-6 nennt, in Wirklichkeit aber ein kleineres Modell, ein Fine-Tune, ein in eine feste Vorlage gewickelter Prompt oder das echte Modell mit klammheimlich gekürztem Kontextfenster und gestutzten nativen Features ist. Derselbe String in model — und doch etwas ganz anderes auf der Leitung.

Du musst dich auf niemandes Wort verlassen. Vier kurze Tests trennen das echte First-Party-Modell von einem Umbau. Keiner davon fragt das Modell "was bist du" — Modelle sind unzuverlässige Erzähler ihrer eigenen Identität. Prüfe stattdessen die Fähigkeiten.

Die vier Arten, ein Modell zu fälschen

Der Austausch. Ein günstigeres oder kleineres Modell wird hinter dem Namen des Flaggschiffs ausgeliefert. Am billigsten im Betrieb, am schwersten bei einfachen Prompts zu bemerken.
Der Vorlagen-Proxy. Dein Prompt wird in ein festes Gerüst gestopft, bevor er das Modell erreicht — das verändert das Verhalten und bläht deine Token-Rechnung mit Text auf, den du nie geschrieben hast.
Das gekappte Fenster. Es behauptet 200K Kontext, kürzt aber auf einen Bruchteil davon und lässt die Mitte langer Eingaben stillschweigend fallen.
Die gestutzten Features. Tool-Nutzung, Vision oder Prompt-Caching werden weggelassen oder vorgetäuscht, sodass alles jenseits von reinem Chat schwächelt.

Test 1 — das Kontextfenster

Verstecke einen Fakt tief in einem langen Dokument und frage ihn wieder ab. Ein echtes Modell mit 200K Kontext holt ihn zurück; eine abgeschnittene Herabstufung wirft beim Input einen Fehler oder verliert die Mitte:

test_context_window.py

# test_context_window.py
# Ein heruntergestuftes Modell hinter dem Namen kann den Kontext, den es
# vorgibt, gar nicht wirklich halten. Verstecke einen Fakt tief in einem
# langen Dokument und frage ihn wieder ab.
from openai import OpenAI
client = OpenAI(api_key="sk-brievio-...", base_url="https://api.brievio.com/v1")

needle = "The launch code is HORIZON-7741."
filler = ("This sentence is filler. " * 9000)          # ~50K Tokens Rauschen
haystack = filler + "\n\n" + needle + "\n\n" + filler

resp = client.chat.completions.create(
    model="claude-sonnet-4-6",
    messages=[
        {"role": "system", "content": "Answer only from the document."},
        {"role": "user", "content": haystack + "\n\nWhat is the launch code?"},
    ],
    max_tokens=20,
)
print(resp.choices[0].message.content)   # echt: "HORIZON-7741"
# Ein abgeschnittener/heruntergestufter Proxy wirft beim langen Input einen
# Fehler oder verliert klammheimlich die Mitte und antwortet "I don't know" —
# treibe das Füllmaterial über das beworbene Fenster des Modells (z. B. 150K+
# Tokens bei einem 200K-Modell) und schau, was zerbricht.

Test 2 — natives Tool-Calling

Fordere einen Tool-Aufruf an und prüfe tool_calls. Das echte Modell gibt einen strukturierten Aufruf zurück; ein Umbau, der die Tool-Unterstützung nur vortäuscht, liefert null und kippt einen JSON-Block in den Text:

test_tools.py

# test_tools.py — echtes natives Tool-Calling oder Attrappe?
resp = client.chat.completions.create(
    model="claude-sonnet-4-6",
    messages=[{"role": "user", "content": "What's the weather in Tokyo? Use the tool."}],
    tools=[{
        "type": "function",
        "function": {
            "name": "get_weather",
            "parameters": {"type": "object", "properties": {"city": {"type": "string"}}},
        },
    }],
    tool_choice="auto",
)
msg = resp.choices[0].message
print("tool_calls:", msg.tool_calls)   # echt: ein strukturierter get_weather(city="Tokyo")
# Ein umgepackter Proxy, der Tools nicht wirklich unterstützt, liefert
# tool_calls=None und quetscht stattdessen einen JSON-Block als reinen Text
# in message.content. Das ist das verräterische Zeichen.

Test 3 — Vision

Schicke ein Bild, dessen Inhalt du bereits kennst, und bitte das Modell, es vorzulesen. Eine reine Text-Herabstufung kann das nicht — sie halluziniert oder wirft einen Fehler:

test_vision.py

# test_vision.py — kann es wirklich sehen?
resp = client.chat.completions.create(
    model="claude-sonnet-4-6",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Reply with only the exact text shown in this image."},
            {"type": "image_url", "image_url": {"url": "https://your-host/known-text.png"}},
        ],
    }],
    max_tokens=30,
)
print(resp.choices[0].message.content)   # echt: der Text im Bild
# Eine reine Text-Herabstufung kann es nicht lesen — sie halluziniert, wirft
# beim Bild-Teil einen Fehler oder ignoriert ihn. Nimm ein Bild, dessen
# Inhalt du bereits kennst.

Test 4 — Caching und die Rechnung

Die vierte Prüfung ist die aus dem Token-Inflation-Beitrag: schicke ein langes Präfix zweimal und bestätige, dass cached_tokens bei der Wiederholung ungleich null ist und dass deine prompt_tokens zum tatsächlich gesendeten Text passen. Ein Vorlagen-Proxy scheitert an beidem — er kann ein Präfix, das er umschreibt, nicht cachen, und er stellt dir den Wrapper in Rechnung. Die Echtheit des Modells und die Ehrlichkeit der Abrechnung gehören zusammen; prüfe sie zusammen.

Alles zusammengeführt

Ein echtes Modell besteht alle vier: Es hält seinen vollen Kontext, gibt echte Tool-Aufrufe zurück, liest Bilder, cached Präfixe und rechnet die Tokens ab, die du gesendet hast. Ein Umbau oder eine Herabstufung zerbricht an mindestens einem — meist zuerst an den teuer zu fälschenden (langer Kontext, Vision). Lass die Suite einmal laufen, wenn du ein Gateway aufschaltest, und erneut, wann immer die Antworten eines Modells klammheimlich schlechter werden; Regressionen hier sind das, woran sich stille Herabstufungen zeigen.

Die ehrliche Referenz

Brievio leitet die echten First-Party-Modelle über Tier-1-Cloud-Kanäle — Claude über AWS Bedrock, Gemini über Google Vertex — mit vollem Kontextfenster, nativer Tool-Nutzung, Vision und Prompt-Caching unverändert durchgereicht, und das angeforderte Modell ist das Modell, das du bekommst. Lass jeden Test von oben gegen Brievio laufen, und er sollte sauber bestehen. Der Modellkatalog listet die echten Fähigkeiten und den Kontext jedes Modells, und die Doku zeigt die exakten Request-Formen, die hier verwendet werden.

"Ist es das echte Modell" und "sagt die Abrechnung die Wahrheit" sind die beiden Fragen, die man jedem AI-Gateway stellen sollte — auch diesem. Beide sind in etwa einer Minute beantwortet. Stell sie.

Ist dein Claude wirklich Claude? Vier Tests gegen umgepackte Modelle

Die vier Arten, ein Modell zu fälschen

Test 1 — das Kontextfenster

Test 2 — natives Tool-Calling

Test 3 — Vision

Test 4 — Caching und die Rechnung

Alles zusammengeführt

Die ehrliche Referenz

$ ls ./related

Token-Inflation: Wie Gateways dir das 5- bis 25-Fache berechnen — und ein 20-zeiliger Test

Zu schön, um wahr zu sein: Woher kommt die Kapazität bei 80% unter Liste?

トークン水増しの実態 — ゲートウェイが請求を5〜25倍にする手口と、20行でできる検証テスト

Inflación de tokens: cómo los gateways te cobran 5–25× (y una prueba de 20 líneas)