你刷到了那条广告：「Claude API——官方价直接打 2 折。」看着确实诱人，拿一段简单的测试提示词跑一下，它甚至真能出结果。可模型的算力成本就摆在那儿，是多少就是多少。Anthropic、OpenAI 和 Google 都不会把自家旗舰模型的推理，按定价的五分之一批发给转售商。所以当一个网关（gateway）喊出 比官方价低 80%时，真正该追问的不是「他们怎么能做到这么高效」，而是 这些算力到底从哪儿来的。答案其实就那么几种，而且没有一种对生产环境（production）的工作负载是好事。

这笔账根本算不平

官方的每 token 单价，粗略说就是算力成本加上厂商的利润。转售商靠走量协议，按这个定价、或略低于定价的价格拿货。再把货以比官方价低 80% 卖出去，等于在用远低于自己进价的价钱亏本甩卖。没有谁能在「规模化」加「长期撑下去」这两个前提下这么干，背后一定藏着「猫腻」，这笔差价最后会换个地方让你补上。小幅折扣，是走量基础设施挣出来的利润；离谱的折扣，本身就是个破绽。

答案一——它根本不是真模型

想便宜 80%，最省事的办法就是：压根不给你上那个贵的模型。换成一个更小的模型、一个微调（fine-tune）版本，或者只是把你的提示词裹进一层模板，再挂着旗舰模型的名号回传给你。这种货色能蒙混过简单的提示词，一碰到难题就原形毕露。四项测试能在一分钟内告诉你，这个模型到底是不是货真价实。

答案二——灰产来的算力

有时候模型是真的，但供应来源并不干净：大批薅免费试用额度、外泄或共用的密钥、靠地区价差套利的账号，等等。在厂商还没察觉、还没封号之前，它确实便宜——可一旦被盯上，你的生产流量会在一夜之间全部回传 401，没有预警，也没有任何补救余地。说没就没的廉价算力，撑不起一门正经生意。

答案三——计量表把钱赚回去

如果你被按 5 倍的 token 数计费，那账面上 80% 的折扣就一文不值。一段偷偷注入的系统提示词，或者一个灌了水的 usage 字段，会悄无声息地把那点「折扣」连本带利地捞回去，甚至还要倒赚一笔。测一测 token 计数 ——真正的价格是单价 × token 数，而后面这个数字，恰恰是最容易被做假的那个。

答案四——赔本引流，再把你套牢

有些网关确实会在头几个月真金白银地补贴，就为了把你拉进来；接着价格便一路悄悄上漂，赠送的额度到期作废，免费档位逐步缩水—— 而到了那会儿，你的集成、你的密钥、你的账务，全都已经落户在它那里了。当初那个标价，才是整件事里最便宜的一环。

值得信任的折扣，长什么样

能长期维持的折扣，是小幅而且讲得清楚的：它是走量基础设施挣出来的利润，而不是补贴，也不是偷工减料。Brievio 把每个模型的价格定在约 比官方定价低 15%（图像和视频的折扣更深），而且逐项对照官方参考价、按模型公开，让你可以自行稽核；这些算力，是经由一线（tier-1）云厂商通道供应的、货真价实的第一方模型—— Claude 走 AWS Bedrock、Gemini 走 Google Vertex——来源可追溯，不是灰产。这是一个刻意做得很「无聊」的折扣，因为在生产环境里，能活下来的恰恰是无聊的那一套。可以看看定价和对比页面。

如果一个网关比官方价低 80%，你不必直接往最坏处想—— 只需要追问算力到底从何而来，并在把真实流量交给它之前，先跑一遍真伪测试和 token 测试。经得起这些追问的答案，才是好答案。

比官方价低 80% 的网关，算力到底从哪儿来？

这笔账根本算不平

答案一——它根本不是真模型

答案二——灰产来的算力

答案三——计量表把钱赚回去

答案四——赔本引流，再把你套牢

值得信任的折扣，长什么样

$ ls ./related

token 灌水：网关如何让你多付 5～25 倍——附一段 20 行测试

你的 Claude 真的是 Claude 吗？4 个测试揪出换皮或降级的模型

トークン水増しの実態 — ゲートウェイが請求を5〜25倍にする手口と、20行でできる検証テスト

Token-Inflation: Wie Gateways dir das 5- bis 25-Fache berechnen — und ein 20-zeiliger Test