cd ../back to blog
$Guide//June 4, 2026//8 min read

Wie du ein OpenAI-kompatibles KI-Gateway auswählst — die Checkliste für Käufer

Eine Checkliste in fünf Dimensionen, um ein KI-API-Gateway zu wählen, ohne bei einem umverpackten, Token-aufblähenden oder instabilen Wiederverkäufer zu landen: Echtheit, Abrechnungsehrlichkeit, Zuverlässigkeit, Abdeckung und Preis & Konditionen — plus ein Ein-Minuten-Skript zur Due Diligence.

Du hast dich entschieden, dass ein Gateway Sinn ergibt — mehr als ein Anbieter, ein OpenAI-kompatibler Endpunkt, eine Rechnung. Jetzt die schwierigere Frage: welches, ohne bei einem umverpackten, Token-aufblähenden, instabilen Wiederverkäufer zu landen, der nur deshalb 80% unter Listenpreis liegt, weil die Kapazität über Nacht verschwindet. Hier ist die Checkliste, die wir nutzen würden — über die fünf Dinge, auf die es wirklich ankommt — plus ein Ein-Minuten-Skript, das die Behauptungen testet, statt ihnen zu glauben.

1. Echtheit — ist es das genuine Modell?

Der Modell-String ist das, was sich am leichtesten fälschen lässt. Ein Wiederverkäufer kann hinter claude-sonnet-4-6 ein kleineres Modell, ein Fine-Tune oder deinen in ein festes Template gewickelten Prompt ausliefern. Prüfe Fähigkeiten, die ein Downgrade nicht vortäuschen kann: volles Kontextfenster, native Tool-Calls, Vision. Der Post zur Modell-Echtheit liefert die Probes.

  • Hält das Modell seinen vollen beworbenen Kontext (Nadel im Heuhaufen bei 150K+)?
  • Funktionieren native Tools und Vision, oder sind sie als Text vorgetäuscht?
  • Ist das Modell rückverfolgbar zu einer First-Party-Quelle (Bedrock, Vertex), oder unerklärt?

2. Abrechnungsehrlichkeit — sagt der Zähler die Wahrheit?

Du zahlst pro Token, und das Gateway meldet die Zahl. Sie aufzupolstern — ein versteckt injizierter System-Prompt oder ein erfundenes usage-Objekt — ist der leiseste Weg, dich um das 5- bis 25-Fache zu überberechnen. Teste es in 20 Zeilen (der Post zur Token-Inflation).

  • Passen die gemeldeten Tokens zu deinem tatsächlichen Text, plus einem kleinen festen Overhead?
  • Sind fehlgeschlagene 4xx/5xx-Calls gratis, oder zahlst du für Fehler?
  • Wird Prompt-Caching honoriert — echte Cache-Treffer zum reduzierten Tarif?

3. Zuverlässigkeit — bleibt es unter Last stabil?

Ein Gateway fügt einen Hop hinzu; es muss sich das verdienen, indem es zuverlässiger ist als das Upstream, nicht unzuverlässiger. Achte auf Fail-Fast-Verhalten (Fehler, die du erneut versuchen kannst, statt 90-Sekunden-Hänger) und auf ein Routing, das von einem abbauenden Backend wegrückt.

  • Gibt es eine öffentliche Status-Seite und eine veröffentlichte SLA-Zahl?
  • Anbieterübergreifendes Failover, oder ein Upstream pro Call?
  • Versagt es schnell und laut, damit deine Retries greifen, oder hängt es stumm?

4. Abdeckung — ein Schlüssel für die Arbeit, die du wirklich machst?

  • Chat, Bild und Video auf demselben Schlüssel, oder nur Text?
  • OpenAI-kompatibel über alles hinweg — Streaming, Tools, Vision, JSON-Modus?
  • Native Routen, wo sie zählen (z. B. Anthropic /v1/messages), intakt gehalten?

5. Preis & Konditionen — billig mit Grund, oder fair bepreist?

Beim Preis wird die Falle geködert. Ein moderater Rabatt unter offiziellem Listenpreis ist eine Marge auf Volumen-Infrastruktur. Ein Gateway 80% unter Listenpreis verkauft Graumarkt-Kapazität weiter, die verschwindet — die Ersparnis kommt irgendwoher, und das ist meist die Echtheit oder die Stabilität.

  • Pro Modell gegen den offiziellen Tarif bepreist (überprüfbar), nicht ein vager pauschaler Rabatt?
  • Pay-as-you-go, oder eingesperrt hinter Abos und verfallenden Credits?
  • Verfällt das Guthaben? Gibt es Mindestbeträge?

Der Ein-Minuten-Due-Diligence-Lauf

Glaub nicht der Marketing-Seite aufs Wort — auch nicht unserer. Lass die Checks laufen:

gateway_due_diligence.py
# gateway_due_diligence.py
# Lass das gegen jedes OpenAI-kompatible Gateway laufen, bevor du ihm in der Produktion vertraust.
# Fünf Checks, deutlich unter einem Cent, etwa eine Minute.
import tiktoken
from openai import OpenAI

client = OpenAI(api_key="sk-...", base_url="https://api.brievio.com/v1")

# 1. EHRLICHE ABRECHNUNG — gemeldete prompt_tokens vs. eine lokale Tokenizer-Zählung.
msgs = [{"role": "user", "content": "Reply with the single word: ok."}]
r = client.chat.completions.create(model="claude-sonnet-4-6", messages=msgs, max_tokens=5)
local = len(tiktoken.get_encoding("cl100k_base").encode(msgs[0]["content"]))
print("token ratio (want ~1.0-1.6x):", round(r.usage.prompt_tokens / local, 1))

# 2. ECHTES MODELL — ein echter strukturierter tool_call, nicht JSON in Text gequetscht.
r = client.chat.completions.create(
    model="claude-sonnet-4-6",
    messages=[{"role": "user", "content": "weather in Tokyo? use the tool"}],
    tools=[{"type": "function", "function": {"name": "get_weather",
        "parameters": {"type": "object", "properties": {"city": {"type": "string"}}}}}],
)
print("returns real tool_calls:", r.choices[0].message.tool_calls is not None)

# 3. FEHLERHAFTE CALLS GRATIS — sende bewusst einen ungültigen Request, prüfe dann deine
#    Usage-Seite: ein 4xx/5xx sollte nichts kosten.
# 4. KONTEXT — Nadel im Heuhaufen am beworbenen Fenster des Modells (siehe den
#    "Ist dein Claude wirklich Claude"-Post für das Snippet).
# 5. KONDITIONEN — eine öffentliche Status-Seite + ein veröffentlichtes SLA existieren; der Preis
#    ist pro Modell gegen den offiziellen Tarif, nicht ein vages "80% auf alles".

Wo Brievio auf seiner eigenen Checkliste landet

Ehrlich zu unserer eigenen Bilanz: Brievio routet die genuinen First-Party-Modelle über Tier-1-Cloud-Kanäle mit vollem Kontext und intakten nativen Features; rechnet echte Token-Zahlen ab und berechnet nichts bei fehlgeschlagenen Calls; bepreist jedes Modell etwa 15% unter offiziellem Listenpreis (Bild und Video tiefer), Pay-as-you-go, mit Guthaben, das nicht verfällt. Wo wir nicht gewinnen: der direkte Weg schlägt uns nach wie vor beim Day-One-Modellzugang und bei Provider-of-Record-Verträgen, und OpenRouter deckt einen weitaus breiteren Open-Source-Long-Tail ab. Sieh dir die vollständigen Vergleiche und das Pricing an, und lass dann das Skript oben gegen jene Gateways laufen, die auf deiner engeren Auswahl stehen.

Der ganze Sinn einer Checkliste ist, dass du sie auf jeden anwenden kannst — auch auf den Anbieter, der sie geschrieben hat. Wende sie auf uns an.