你看到那則廣告：「Claude API — 官方價 8 折優惠……不對，是 2 折。」聽起來很誘人，而且用一段簡單的測試提示詞跑起來,它甚至真的能動。但模型的運算成本就是擺在那裡。Anthropic、OpenAI 與 Google 都不會把自家旗艦模型的推論,以定價的五分之一批給轉售商。所以當一個閘道(gateway)喊出 比官方價低 80%時,該誠實追問的不是「他們怎麼能這麼有效率」, 而是 這些運算容量到底從哪裡來。答案其實只有那麼幾種,而且沒有一種對正式環境(production)的工作負載是好事。

算不過來的一筆帳

官方的每個 token 單價,粗略來說就是運算成本再加上供應商的利潤。轉售商透過用量協議,以那個定價、或略低於定價的價格進貨。把進來的東西用比官方價低 80% 賣出去,等於是用遠低於自己成本的價格在賣。沒有人能在規模化、又能撐很久的前提下這樣做,而背後一定有個「貓膩」,最後會在別的地方由你買單。小幅的折扣是建立在用量基礎設施上的利潤;誇張的折扣,則是一個破綻。

答案一 — 它根本不是真正的模型

要便宜 80%,最省事的做法就是:根本不提供那個昂貴的模型。一個更小的模型、一個微調(fine-tune)版本,或者只是把你的提示詞包進一層模板裡,然後掛著旗艦模型的名號回傳給你。它能通過簡單的提示詞,卻會在困難的題目上原形畢露。四項測試能在一分鐘內告訴你,這個模型是不是貨真價實。

答案二 — 灰色市場的運算容量

有時候模型是真的,但供應來源並不合法:大量薅免費試用額度、外流或共用的金鑰、利用區域價差套利的帳號等等。在供應商還沒發現並封鎖之前,它確實很便宜 — 可是一旦被盯上,你的正式環境流量會在一夜之間全部回傳 401,沒有預警,也沒有任何補救。隨時可能憑空消失的廉價運算容量,不是能用來支撐一門生意的基礎。

答案三 — 計量表把錢賺回去

如果你被按照 5 倍的 token 數量計費,那麼帳面上 80% 的折扣就毫無意義。一段暗中注入的系統提示詞,或一個灌了水的 usage 物件,會悄悄把那筆「折扣」連本帶利地賺回去。測試 token 計數 — 真正的價格是單價 × token 數,而後面那個數字,正是最容易被造假的一個。

答案四 — 賠本搶客、再把你綁死

有些閘道確實會在頭幾個月真金白銀地補貼,只為了把你拉進來;接著價格便一路悄悄往上漂,贈送的額度到期失效,免費方案的額度逐步縮水 — 而到了那個時候,你的整合、你的金鑰、你的帳務,全都已經落腳在那裡了。當初那個標價,才是整件事裡最便宜的部分。

值得信任的折扣,長什麼樣子

可長久維持的折扣,是小幅而且說得清楚的:它是建立在用量基礎設施上的利潤,而不是補貼,也不是偷工減料。Brievio 把每個模型的價格訂在約 比官方定價低 15%(圖像與影片的折扣更深),而且逐一對照官方參考價、按模型公開,讓你能自行稽核;這些運算容量,是透過第一線(tier-1)雲端通道供應的、貨真價實的第一方模型 — Claude 走 AWS Bedrock、Gemini 走 Google Vertex — 來源可追溯,不是灰色市場。這是一個刻意做得很無聊的折扣,因為在正式環境裡,能活下來的正是無聊的東西。請參考定價與比較頁面。

如果一個閘道比官方價低 80%,你不必把它往最壞處想 — 你只需要追問運算容量從何而來,並在把真實流量交給它之前,先跑一遍真偽與 token 測試。經得起這些追問的答案,才是好答案。

好到不像真的：比官方價低 80% 的閘道，運算容量從哪裡來

算不過來的一筆帳

答案一 — 它根本不是真正的模型

答案二 — 灰色市場的運算容量

答案三 — 計量表把錢賺回去

答案四 — 賠本搶客、再把你綁死

值得信任的折扣,長什麼樣子

$ ls ./related

權杖灌水：閘道如何向你多收 5～25 倍費用，以及一段 20 行的檢驗

你的 Claude 真的是 Claude 嗎？四個測試揪出被重新包裝或降級的模型

トークン水増しの実態 — ゲートウェイが請求を5〜25倍にする手口と、20行でできる検証テスト

Token-Inflation: Wie Gateways dir das 5- bis 25-Fache berechnen — und ein 20-zeiliger Test