広告が目に入ります。「Claude API — 公式の 80% オフ」。心が動きますし、 簡単なテストプロンプトなら実際に動いてしまいます。けれどモデルの計算コストは かかるだけかかります。Anthropic も OpenAI も Google も、自社フラッグシップの 推論を定価の 5 分の 1 でリセラーに卸したりはしません。だからゲートウェイが 公式の 80% 引きだったとき、正直に問うべきは 「どうしてそこまで効率的なのか」ではなく その処理能力はどこから来ているのかです。答えはほんの数通りしか なく、そのどれもが本番ワークロードにとって良い話ではありません。
つじつまの合わない計算
公式のトークン単価は、ざっくり言えば計算コストにプロバイダーのマージンを 乗せたものです。リセラーはボリューム契約で、その定価ちょうど、あるいは わずかに下で仕入れます。そこから 80% 引きで売るというのは、自分の仕入れ値を 大きく下回る価格で売るということです。どこか別の場所で結局あなたが払うことに なる「カラクリ」なしに、それを大規模かつ長期に続けられる者はいません。 ささやかな割引はボリュームインフラ上のマージンですが、極端な割引は危険信号です。
答えその 1 — それは本物のモデルではない
80% 安くする最も手っ取り早い方法は、その高価なモデルを提供しないことです。 より小さなモデル、ファインチューン、あるいはテンプレートで包んだだけの あなたのプロンプトが、フラッグシップの名前を借りて返ってきます。簡単な プロンプトは通過しても、難しいものになると途端に崩れます。 4 つのテストを使えば、 そのモデルが本物かどうかは 1 分で分かります。
答えその 2 — グレーマーケットの処理能力
モデルは本物でも、その供給元が正規でないことがあります。無料トライアル クレジットの大量取得、流出・共有された API キー、リージョン差を悪用した アカウントなどです。プロバイダーが気づいて遮断するまでは確かに安いのですが、 気づかれた瞬間、あなたの本番トラフィックは一夜にして 401 を 返しはじめ、警告もなければ救済もありません。いつ消えてもおかしくない安い 処理能力は、事業を築ける土台ではありません。
答えその 3 — メーターで取り返す
単価を 80% 引きにしても、トークンを 5 倍に水増しして請求されれば意味は ありません。隠れて注入されたシステムプロンプトや、水増しされた usage オブジェクトが、その「割引」をこっそり取り返し、さらに 上乗せまでします。 トークン数をテストして ください — 実際の価格は単価 × トークン数であり、後者こそ最も偽装しやすい 数字です。
答えその 4 — 赤字客寄せによる囲い込み
一部のゲートウェイは、あなたを獲得するために最初の数か月だけを本気で 補填します。そして価格はじわじわ上がり、ボーナスクレジットは失効し、 無料枠は縮小していきます — その頃にはあなたの連携、API キー、課金情報は すべてそこに置かれています。値札はいちばん安い部分でしかなかったのです。
信頼できる割引とはどんなものか
持続可能な割引は、小さく、説明がつきます。補填でもなければ手抜きでもなく、 ボリュームインフラ上のマージンです。Brievio は各モデルを公式定価の約 15% 引きで提供し(画像と動画はさらに深い割引)、 モデルごとに公式の基準レートと並べて公開しているので検証可能です。その処理能力は tier-1 クラウド経由で提供される本物のファーストパーティ モデル — Claude は AWS Bedrock 経由、Gemini は Google Vertex 経由 — であり、追跡可能で、 グレーマーケットではありません。あえて退屈にしてある割引です。なぜなら本番で 生き残るのは退屈なものだからです。 料金ページと 比較ページをご覧ください。
あるゲートウェイが定価の 80% 引きなら、最悪の事態を決めつける必要はありません — ただ処理能力がどこから来るのかを問い、本物のトラフィックを乗せる前に 真正性とトークンのテストを走らせればよいのです。良い答えは、その問いに 耐えて生き残ります。