cd ../back to blog
$Trust//June 4, 2026//6 min read

Zu schön, um wahr zu sein: Woher kommt die Kapazität bei 80% unter Liste?

Ein Gateway 80% unter offiziellem Preis? Die ehrliche Frage ist nicht, wie es so günstig ist, sondern woher die Kapazität kommt. Vier Antworten — und keine ist gut für die Produktion.

Du siehst die Anzeige: „Claude API — 80% günstiger als offiziell.” Das ist verlockend, und bei einem einfachen Test-Prompt funktioniert es sogar. Aber die Rechenleistung eines Modells kostet, was sie kostet. Anthropic, OpenAI und Google geben ihre Flaggschiff-Inferenz nicht zu einem Fünftel des Listenpreises an Wiederverkäufer ab. Wenn ein Gateway also 80% unter offiziell liegt, lautet die ehrliche Frage nicht „wie sind die nur so effizient” — sondern woher kommt die Kapazität. Es gibt nur ein paar Antworten, und keine davon ist gut für einen Produktiv-Workload.

Die Rechnung, die nicht aufgeht

Ein offizieller Preis pro Token ist grob gesagt Rechenleistung plus die Marge des Anbieters. Ein Wiederverkäufer kauft zu diesem Listenpreis — oder knapp darunter — auf Basis einer Mengenvereinbarung. Das Ergebnis dann 80% unter Liste zu verkaufen heißt, deutlich unter dem eigenen Einkaufspreis zu verkaufen. Niemand macht das im großen Maßstab über längere Zeit, ohne dass es einen Haken gibt, den du am Ende anderswo bezahlst. Ein moderater Rabatt ist eine Marge auf Volumen-Infrastruktur. Ein massiver ist ein Warnsignal.

Antwort 1 — es ist nicht das echte Modell

Der billigste Weg, um 80% günstiger zu sein, ist, das teure Modell gar nicht erst auszuliefern. Ein kleineres Modell, ein Fine-Tune oder dein in ein Template gewickelter Prompt kommt unter dem Namen des Flaggschiffs zurück. Es besteht einfache Prompts und fällt bei den schweren auseinander. Vier Tests sagen dir in einer Minute, ob das Modell echt ist.

Antwort 2 — Graumarkt-Kapazität

Manchmal ist das Modell echt, aber die Bezugsquelle ist es nicht: abgegraste Trial-Credits, geleakte oder geteilte Keys, Accounts aus Regions-Arbitrage. Es ist wirklich günstig — genau bis zu dem Moment, in dem der Anbieter es bemerkt und abschaltet, und dann antwortet dein Produktiv-Traffic über Nacht mit 401, ohne Vorwarnung und ohne Rückgriffsmöglichkeit. Günstige Kapazität, die jederzeit verschwinden kann, ist keine Kapazität, auf der du ein Geschäft aufbauen kannst.

Antwort 3 — der Zähler holt es wieder rein

Ein plakativer 80%-Rabatt auf den Tarif ist nichts wert, wenn dir das 5-Fache an Tokens berechnet wird. Ein versteckt injizierter System-Prompt oder ein aufgepolstertes usage-Objekt holt sich den „Rabatt” still und leise zurück — und obendrein noch etwas. Prüfe die Token-Zahlen — der echte Preis ist Tarif × Tokens, und die zweite Zahl lässt sich am leichtesten fälschen.

Antwort 4 — Lock-in über den Lockvogel

Manche Gateways subventionieren die ersten Monate tatsächlich, um dich zu gewinnen, danach klettert der Preis, die Bonus-Credits verfallen, das kostenlose Kontingent schrumpft — und bis dahin liegen deine Integration, deine Keys und deine Abrechnung schon dort. Das Preisschild war der billigste Teil.

Wie ein Rabatt aussieht, dem du vertrauen kannst

Ein tragfähiger Rabatt ist klein und erklärbar: eine Marge auf Volumen-Infrastruktur, keine Subvention und keine gekürzte Ecke. Brievio bepreist jedes Modell rund 15% unter seinem offiziellen Listenpreis (Bild und Video liegen tiefer), pro Modell gegen den offiziellen Referenztarif ausgewiesen, sodass du es nachprüfen kannst; die Kapazität ist das echte First-Party-Modell über Tier-1-Cloud-Kanäle — Claude über AWS Bedrock, Gemini über Google Vertex — nachvollziehbar, nicht aus dem Graumarkt. Es ist der Rabatt, der mit Absicht langweilig ist, weil langweilig das ist, was in der Produktion überlebt. Sieh dir das Pricing und die Vergleiche an.

Liegt ein Gateway 80% unter Liste, musst du nicht gleich das Schlimmste annehmen — du musst nur fragen, woher die Kapazität kommt, und die Echtheits- und Token-Tests laufen lassen, bevor du echten Traffic darauf legst. Die guten Antworten überstehen die Fragen.