広告が目に入ります。「Claude API — 公式の 80% オフ」。心が動きますし、簡単なテストプロンプトなら実際に動いてしまいます。けれどモデルの計算コストはかかるだけかかります。Anthropic も OpenAI も Google も、自社フラッグシップの推論を定価の 5 分の 1 でリセラーに卸したりはしません。だからゲートウェイが 公式の 80% 引きだったとき、正直に問うべきは「どうしてそこまで効率的なのか」ではなく その処理能力はどこから来ているのかです。答えはほんの数通りしかなく、そのどれもが本番ワークロードにとって良い話ではありません。

つじつまの合わない計算

公式のトークン単価は、ざっくり言えば計算コストにプロバイダーのマージンを乗せたものです。リセラーはボリューム契約で、その定価ちょうど、あるいはわずかに下で仕入れます。そこから 80% 引きで売るというのは、自分の仕入れ値を大きく下回る価格で売るということです。どこか別の場所で結局あなたが払うことになる「カラクリ」なしに、それを大規模かつ長期に続けられる者はいません。ささやかな割引はボリュームインフラ上のマージンですが、極端な割引は危険信号です。

答えその 1 — それは本物のモデルではない

80% 安くする最も手っ取り早い方法は、その高価なモデルを提供しないことです。より小さなモデル、ファインチューン、あるいはテンプレートで包んだだけのあなたのプロンプトが、フラッグシップの名前を借りて返ってきます。簡単なプロンプトは通過しても、難しいものになると途端に崩れます。 4 つのテストを使えば、そのモデルが本物かどうかは 1 分で分かります。

答えその 2 — グレーマーケットの処理能力

モデルは本物でも、その供給元が正規でないことがあります。無料トライアルクレジットの大量取得、流出・共有された API キー、リージョン差を悪用したアカウントなどです。プロバイダーが気づいて遮断するまでは確かに安いのですが、気づかれた瞬間、あなたの本番トラフィックは一夜にして 401 を返しはじめ、警告もなければ救済もありません。いつ消えてもおかしくない安い処理能力は、事業を築ける土台ではありません。

答えその 3 — メーターで取り返す

単価を 80% 引きにしても、トークンを 5 倍に水増しして請求されれば意味はありません。隠れて注入されたシステムプロンプトや、水増しされた usage オブジェクトが、その「割引」をこっそり取り返し、さらに上乗せまでします。トークン数をテストしてください — 実際の価格は単価 × トークン数であり、後者こそ最も偽装しやすい数字です。

答えその 4 — 赤字客寄せによる囲い込み

一部のゲートウェイは、あなたを獲得するために最初の数か月だけを本気で補填します。そして価格はじわじわ上がり、ボーナスクレジットは失効し、無料枠は縮小していきます — その頃にはあなたの連携、API キー、課金情報はすべてそこに置かれています。値札はいちばん安い部分でしかなかったのです。

信頼できる割引とはどんなものか

持続可能な割引は、小さく、説明がつきます。補填でもなければ手抜きでもなく、ボリュームインフラ上のマージンです。Brievio は各モデルを公式定価の約 15% 引きで提供し（画像と動画はさらに深い割引）、モデルごとに公式の基準レートと並べて公開しているので検証可能です。その処理能力は tier-1 クラウド経由で提供される本物のファーストパーティモデル — Claude は AWS Bedrock 経由、Gemini は Google Vertex 経由 — であり、追跡可能で、グレーマーケットではありません。あえて退屈にしてある割引です。なぜなら本番で生き残るのは退屈なものだからです。料金ページと比較ページをご覧ください。

あるゲートウェイが定価の 80% 引きなら、最悪の事態を決めつける必要はありません — ただ処理能力がどこから来るのかを問い、本物のトラフィックを乗せる前に真正性とトークンのテストを走らせればよいのです。良い答えは、その問いに耐えて生き残ります。

うますぎる話：80% 引きゲートウェイの処理能力はどこから来るのか

つじつまの合わない計算

答えその 1 — それは本物のモデルではない

答えその 2 — グレーマーケットの処理能力

答えその 3 — メーターで取り返す

答えその 4 — 赤字客寄せによる囲い込み

信頼できる割引とはどんなものか

$ ls ./related

トークン水増しの実態 — ゲートウェイが請求を5〜25倍にする手口と、20行でできる検証テスト

あなたの Claude は本物の Claude か？偽装・格下げプロキシを見抜く 4 つのテスト

Token-Inflation: Wie Gateways dir das 5- bis 25-Fache berechnen — und ein 20-zeiliger Test

Inflación de tokens: cómo los gateways te cobran 5–25× (y una prueba de 20 líneas)

うますぎる話：80% 引きゲートウェイの処理能力はどこから来るのか

つじつまの合わない計算

答えその 1 — それは本物のモデルではない

答えその 2 — グレーマーケットの処理能力

答えその 3 — メーターで取り返す

答えその 4 — 赤字客寄せによる囲い込み

信頼できる割引とはどんなものか

$ ls ./related

トークン水増しの実態 — ゲートウェイが請求を5〜25倍にする手口と、20行でできる検証テスト

あなたの Claude は本物の Claude か？ 偽装・格下げプロキシを見抜く 4 つのテスト

Token-Inflation: Wie Gateways dir das 5- bis 25-Fache berechnen — und ein 20-zeiliger Test

Inflación de tokens: cómo los gateways te cobran 5–25× (y una prueba de 20 líneas)

あなたの Claude は本物の Claude か？偽装・格下げプロキシを見抜く 4 つのテスト