Ist das wirklich das echte Claude / Gemini?

Ja — echte Erstanbieter-Modelle, keine Template-Proxys, die nur so aussehen. Du bekommst den vollen Kontext und die nativen Funktionen: Tools, Vision und Prompt-Caching. Das Modell, das deine Anfrage beantwortet, ist genau das Modell, das der Anbieter ausliefert.

Warum nicht direkt zu jedem Anbieter gehen?

Ein Key, eine Rechnung und ein OpenAI-kompatibler Endpoint statt drei Verträgen, drei SDKs und drei Dashboards — plus ein kleiner Rabatt obendrauf. Wechsle das Modell, indem du eine einzige Zeichenkette änderst, und du musst nie einen neuen Client integrieren, um einen neuen Anbieter zu erreichen.

Wie könnt ihr günstiger als offiziell sein, und warum nicht noch günstiger?

Eine bescheidene Marge auf Volumen-Infrastruktur erlaubt uns, rund 15 % unter dem offiziellen Listenpreis des jeweiligen Anbieters zu listen — nicht 80 % darunter. Mit Aufladeboni summiert sich das auf bis zu rund 21 % effektivem Rabatt. Verspricht ein Gateway 80 % Rabatt, frag, woher die Kapazität stammt: Solche Preise bedeuten meist Graumarkt-Versorgung, die ohne Vorwarnung verschwindet. Wir bleiben lieber online.

Kann ich die Kosten pro Anfrage deckeln?

Ja. max_tokens und die üblichen Limits werden nativ berücksichtigt, genau so, wie der Anbieter sie definiert — sie werden unterwegs nicht stillschweigend ignoriert oder umgeschrieben.

Woher weiß ich, dass meine Rechnung stimmt?

Jede Anfrage wird mit den echten Input- und Output-Token-Zahlen protokolliert, direkt aus dem Modell gelesen und nie durch versteckte System-Prompts aufgebläht. Fehlgeschlagene Anfragen werden nicht berechnet, Streaming-Antworten, die mittendrin abbrechen, kosten nur die tatsächlich gelieferten Tokens, und du kannst das gesamte Buch als CSV exportieren.

Trainiert ihr mit meinen Daten?

Nein. Deine Anfragen und Antworten werden nicht zum Training irgendeines Modells genutzt. Sie werden nur für deine eigenen Nutzungsprotokolle und zur Fehlersuche aufbewahrt und sind auf dein Konto beschränkt.

Ist es wirklich OpenAI-kompatibel?

Ja — es ist ein Ersatz ohne Umbau für das OpenAI-SDK. Wir implementieren /v1/chat/completions, /v1/embeddings, /v1/images/generations, /v1/models und /v1/video/generations, wobei Streaming, Function Calling, Tool Use und Vision sich identisch verhalten. Richte base_url auf https://api.brievio.com/v1, und du bist fertig.

Aus erster Hand · Rückverfolgbar bis AWS Bedrock / Vertex

Modelle aus erster Hand,
rückverfolgbar bis zur Quelle.

Echtes Claude und Gemini, geliefert über nachverfolgbare Tier-1-Cloud-Kanäle — AWS Bedrock, Google Vertex —, niemals aus einem Graumarkt-Pool. Ein OpenAI-kompatibler Endpoint, unter dem offiziellen Listenpreis. Ein einziges base_url ändern.

API-Key holen Doku lesen

OpenAI-SDK direkt nutzen · Eine Base-URL ändern · Schon bist du live

In deinen KI-Agenten einfügen

Use Brievio as your model provider — an OpenAI-compatible gateway to every first-party text, image and video model.

base_url:  https://api.brievio.com/v1
auth:      Authorization: Bearer $BRIEVIO_API_KEY

To use a model, call GET /v1/models for the live catalog, then route each model by its brievio.endpoint field. Full agent reference: https://brievio.com/llms.txt

prompt_tokens

14

completion_tokens

9

cost_usd

$0.000174

cat ./why-brievio.md

Echte Modelle auf einer Infrastruktur, auf der du ein Geschäft aufbauen kannst.

Brievio ist die rabattierte Original-Stufe: das echte Claude, Gemini sowie erstklassige Bild- und Videomodelle, ausgeliefert über Backends in Enterprise-Qualität und nach ehrlichen Token-Zahlen abgerechnet. Zuverlässigkeit und Echtheit zuerst — niemals ein Preiswettlauf nach unten.

01

Echte Modelle, nichts umetikettiert

Jedes Modell ist das Original — voller Kontext, native Tools, native Bildverarbeitung. Keine vorgeschalteten Template-Proxys, keine still herabgestuften Varianten, kein heimlich gekürzter Kontext.

02

OpenAI-kompatibel, ohne Umbau

Behalte das OpenAI-SDK, das du längst geschrieben hast. Streaming, Function Calling, Tool Use und Vision verhalten sich exakt wie beim Anbieter — richte base_url auf api.brievio.com/v1 und geh in Produktion.

03

Zuverlässigkeit als Fundament

Anfragen werden schnell fertig oder scheitern sofort und sichtbar, damit deine Retries wirklich greifen. Keine 90-Sekunden-Hänger, keine stillen Rate-Limits — automatisches Umschalten in dem Moment, in dem ein Backend nachlässt.

04

Ein fairer Preis, kein Ausverkauf

Pro Modell rund 15 % unter dem offiziellen Listenpreis des jeweiligen Anbieters — mit Aufladeboni bis zu rund 21 % effektivem Rabatt. Wir sind bewusst nicht der günstigste Endpoint im Netz — die mit 80 % Rabatt verkaufen Graumarkt-Kapazität weiter, die über Nacht verschwindet.

05

Eine Abrechnung, die du prüfen kannst

Echte Token-Zahlen direkt aus dem Modell, niemals durch versteckte System-Prompts aufgebläht. Jede Anfrage wird mit den tatsächlichen Input-/Output-Tokens und den exakten Kosten protokolliert. Fehlgeschlagene Anfragen werden nie berechnet.

06

Überwachtes Routing, das schnell scheitert

Der Zustand wird laufend beobachtet. Wackelt ein Upstream, wird der Verkehr umgeleitet, bevor deine Nutzer es spüren — und bricht doch einmal etwas weg, scheitert es sofort statt zu hängen.

07

Natives Streaming, echte Tokens

Server-Sent-Events werden unverändert durchgereicht. Die Zeit bis zum ersten Token folgt dem Anbieter — kein Puffern, kein Batching, keine künstliche Verzögerung dazwischen.

08

Jeder Aufruf nachvollziehbar

Analytik pro Aufruf nach Modell, Key und IP, mit den echten Token-Zahlen hinter jeder Belastung. Exportiere das vollständige Buch als CSV, wann immer die Buchhaltung fragt.

09

Prompt-Caching, nativ berücksichtigt

Wo der Anbieter es unterstützt, wird cache_control auf deinem System-Prompt unverändert durchgereicht — echte Cache-Treffer, echte Ersparnis, mit Trefferquote und gespartem Betrag live in deinem Dashboard.

−90%

ls ./use-cases

What to build with Brievio.

Browse all use cases

ls ./models --provider

Die echten Modelle — voller Kontext, native Funktionen.

Alle Modelle durchsuchen

Anthropic

Claude Opus 4.7

new

Anthropic's newest Opus — flagship reasoning, vision, 200K context.

visionfunctionstreamingthinking

$4.25/$21.25

per 1M tokens

Anthropic

Claude Opus 4.6

Anthropic Opus 4.6 — deep reasoning, exceptional agentic ability.

visionfunctionstreamingthinking

$4.25/$21.25

per 1M tokens

Anthropic

Claude Sonnet 4.6

hot

Balanced speed/quality — the everyday production workhorse, elite coding.

visionfunctionstreamingthinking

$2.55/$12.75

per 1M tokens

Anthropic

Claude Sonnet 4.5

Anthropic Sonnet 4.5 — production workhorse.

visionfunctionstreamingthinking

$2.55/$12.75

per 1M tokens

Anthropic

Claude Haiku 4.5

Anthropic Haiku 4.5 — fast and cost-efficient.

visionfunctionstreaming

$0.85/$4.25

per 1M tokens

Google

Gemini 2.5 Pro

Previous-gen Gemini Pro — strong reasoning and vision.

visionfunctionstreamingthinking

$1.0625/$8.50

per 1M tokens

Google

Gemini 2.5 Flash

Previous-gen Gemini Flash — extreme value.

visionfunctionstreaming

$0.255/$2.125

per 1M tokens

man brievio

Richte deinen Agenten auf `llms.txt`
und er bedient jedes Modell von allein.

Gib Claude Code, Cursor, Cline — oder jedem OpenAI-kompatiblen Agenten — eine einzige Anweisung. Er holt sich den Live-Katalog von Brievio und ruft die echten Text-, Bild- und Videomodelle direkt auf. Kein SDK zu verdrahten, kein Glue-Code zu pflegen.

[OK]OpenAI-Wire-kompatibel — keine eigene Integration für deinen Agenten
[OK]GET /v1/models liefert den Live-Katalog — Modellnamen nie fest verdrahten
[OK]Ein Key, jede Modalität: Text, Bild, Video, Audio

In deinen KI-Agenten einfügen

Use Brievio as your model provider — an OpenAI-compatible gateway to every first-party text, image and video model.

base_url:  https://api.brievio.com/v1
auth:      Authorization: Bearer $BRIEVIO_API_KEY

To use a model, call GET /v1/models for the live catalog, then route each model by its brievio.endpoint field. Full agent reference: https://brievio.com/llms.txt

cat ./pricing.txt

Zahle nur für das, was du tatsächlich nutzt.

Prepaid-Wallet, kein Abo und kein Mindestumsatz. Lege mit $10 los; dein Guthaben verfällt nie, und jede Belastung lässt sich auf echte, geprüfte Nutzung zurückführen.

Starter

Zum Ausprobieren

$10

Zugang zu jedem echten Modell
Echte Nutzungsprotokolle pro Aufruf
Community- & E-Mail-Support
Kein Mindestumsatz, keine Kreditkarte

API-Key holen

Builder

Du bringst ein Produkt heraus

$100

Ehrliche Token-Abrechnung bei jedem Aufruf
10 getrennte API-Keys
Auto-Aufladung · IP-Allowlist
Priorisierter E-Mail-Support

$100 aufladen

Scale

Produktiver Traffic im Betrieb

$1000

Überwachtes Routing, das schnell scheitert
Unbegrenzte API-Keys
Webhooks · monatliche Rechnungen
Dedizierter Slack-/Discord-Support

$1000 aufladen

Enterprise

Hohes Volumen im großen Maßstab

$5000

Alles aus Scale
Reservierte Routing-Kapazität
Individuelle Rate Limits & SLA
Persönlicher Account Manager

$5000 aufladen

Vollständige Preistabelle ansehen

ls ./blog

Recent deep dives.

All posts

brievio --help

Die Fragen,
die zählen.

Keine Antwort gefunden? Schreib uns an contact@brievio.com — wir antworten innerhalb von 24 Stunden.

Ja — echte Erstanbieter-Modelle, keine Template-Proxys, die nur so aussehen. Du bekommst den vollen Kontext und die nativen Funktionen: Tools, Vision und Prompt-Caching. Das Modell, das deine Anfrage beantwortet, ist genau das Modell, das der Anbieter ausliefert.
Ein Key, eine Rechnung und ein OpenAI-kompatibler Endpoint statt drei Verträgen, drei SDKs und drei Dashboards — plus ein kleiner Rabatt obendrauf. Wechsle das Modell, indem du eine einzige Zeichenkette änderst, und du musst nie einen neuen Client integrieren, um einen neuen Anbieter zu erreichen.
Eine bescheidene Marge auf Volumen-Infrastruktur erlaubt uns, rund 15 % unter dem offiziellen Listenpreis des jeweiligen Anbieters zu listen — nicht 80 % darunter. Mit Aufladeboni summiert sich das auf bis zu rund 21 % effektivem Rabatt. Verspricht ein Gateway 80 % Rabatt, frag, woher die Kapazität stammt: Solche Preise bedeuten meist Graumarkt-Versorgung, die ohne Vorwarnung verschwindet. Wir bleiben lieber online.
Ja. max_tokens und die üblichen Limits werden nativ berücksichtigt, genau so, wie der Anbieter sie definiert — sie werden unterwegs nicht stillschweigend ignoriert oder umgeschrieben.
Jede Anfrage wird mit den echten Input- und Output-Token-Zahlen protokolliert, direkt aus dem Modell gelesen und nie durch versteckte System-Prompts aufgebläht. Fehlgeschlagene Anfragen werden nicht berechnet, Streaming-Antworten, die mittendrin abbrechen, kosten nur die tatsächlich gelieferten Tokens, und du kannst das gesamte Buch als CSV exportieren.
Nein. Deine Anfragen und Antworten werden nicht zum Training irgendeines Modells genutzt. Sie werden nur für deine eigenen Nutzungsprotokolle und zur Fehlersuche aufbewahrt und sind auf dein Konto beschränkt.
Ja — es ist ein Ersatz ohne Umbau für das OpenAI-SDK. Wir implementieren /v1/chat/completions, /v1/embeddings, /v1/images/generations, /v1/models und /v1/video/generations, wobei Streaming, Function Calling, Tool Use und Vision sich identisch verhalten. Richte base_url auf https://api.brievio.com/v1, und du bist fertig.

$ brievio init --production

Bau auf Modellen, die nicht ausfallen.

Erstelle einen Key und richte das OpenAI-SDK auf Brievio — das echte Claude, Gemini sowie erstklassige Bild- und Videomodelle, auf einer Infrastruktur, die hält, abgerechnet nach echten Tokens. Eine Base-URL ändern, und du bist live.

API-Key holen Doku lesen

Modelle aus erster Hand,
rückverfolgbar bis zur Quelle.

Echte Modelle auf einer Infrastruktur, auf der du ein Geschäft aufbauen kannst.

Echte Modelle, nichts umetikettiert

OpenAI-kompatibel, ohne Umbau

Zuverlässigkeit als Fundament

Ein fairer Preis, kein Ausverkauf

Eine Abrechnung, die du prüfen kannst

Überwachtes Routing, das schnell scheitert

Natives Streaming, echte Tokens

Jeder Aufruf nachvollziehbar

Prompt-Caching, nativ berücksichtigt

What to build with Brievio.

AI customer support

RAG chatbot API

AI content moderation

AI code assistant

AI data extraction

Die echten Modelle — voller Kontext, native Funktionen.

Claude Opus 4.7

Claude Opus 4.6

Claude Sonnet 4.6

Claude Sonnet 4.5

Claude Haiku 4.5

Gemini 2.5 Pro

Gemini 2.5 Flash

Richte deinen Agenten auf `llms.txt`
und er bedient jedes Modell von allein.

Zahle nur für das, was du tatsächlich nutzt.

Starter

Builder

Scale

Enterprise

Recent deep dives.

How to choose an OpenAI-compatible AI gateway — a buyer's checklist

Is your "Claude" really Claude? Four tests to spot a re-wrapped or downgraded model proxy

Token inflation — how some AI gateways bill you 5–25×, and a 20-line test to catch it

Die Fragen,
die zählen.

Bau auf Modellen, die nicht ausfallen.

Modelle aus erster Hand,rückverfolgbar bis zur Quelle.

Echte Modelle auf einer Infrastruktur, auf der du ein Geschäft aufbauen kannst.

Echte Modelle, nichts umetikettiert

OpenAI-kompatibel, ohne Umbau

Zuverlässigkeit als Fundament

Ein fairer Preis, kein Ausverkauf

Eine Abrechnung, die du prüfen kannst

Überwachtes Routing, das schnell scheitert

Natives Streaming, echte Tokens

Jeder Aufruf nachvollziehbar

Prompt-Caching, nativ berücksichtigt

What to build with Brievio.

AI customer support

RAG chatbot API

AI content moderation

AI code assistant

AI data extraction

Die echten Modelle — voller Kontext, native Funktionen.

Claude Opus 4.7

Claude Opus 4.6

Claude Sonnet 4.6

Claude Sonnet 4.5

Claude Haiku 4.5

Gemini 2.5 Pro

Gemini 2.5 Flash

Richte deinen Agenten auf llms.txtund er bedient jedes Modell von allein.

Zahle nur für das, was du tatsächlich nutzt.

Starter

Builder

Scale

Enterprise

Recent deep dives.

How to choose an OpenAI-compatible AI gateway — a buyer's checklist

Is your "Claude" really Claude? Four tests to spot a re-wrapped or downgraded model proxy

Token inflation — how some AI gateways bill you 5–25×, and a 20-line test to catch it

Die Fragen,die zählen.

Bau auf Modellen, die nicht ausfallen.

Modelle aus erster Hand,
rückverfolgbar bis zur Quelle.

Richte deinen Agenten auf `llms.txt`
und er bedient jedes Modell von allein.

Die Fragen,
die zählen.