cd ../back to blog
$Playbook//June 4, 2026//8 min read

AI API 成本優化 — 真正能砍掉帳單的五個技巧

提示快取、模型分層、輸出上限、平行化、重試衛生:每個技巧都附可執行程式碼與實際節省幅度,疊起來省下 70~80%。

財務儀表板上的 AI 功能成本有個有趣的特性:它會隨流量非線性成長, 而且當你的產品越受歡迎,它就變得越糟。以下是我們實際看過、最能撼動 這條成本線的五個高槓桿技巧,每一個都附上可直接執行的程式碼。

實例試算:一個聊天產品每天 10 萬次呼叫,平均輸入 3K、輸出 500 個 權杖,跑在 Claude Sonnet 4.6 上,直接成本約為每月 $4,500。同樣的負載 套上下面五個技巧後,通常會落在每月 $900~$1,200 — 在不顯著降低輸出 品質的前提下,砍掉 70~80%。

1. 提示快取 — 單一最大的槓桿

如果你的系統提示或上下文區塊超過約 2K 個權杖,而且會在多次呼叫之間 重複使用,那你就付太多了。Anthropic 和 Google 對快取輸入的計費大約 只有正常輸入的 0.1×~0.2× — 在快取暖起來之後,每一次呼叫都能省下 5~10 倍。Brievio 會把這份節省全額轉嫁給你,並執行一個親和性 路由器,讓重複的提示持續命中同一個上游節點,因此即使在低併發下, 快取也能維持存活。

完整指南請見 /docs/caching

cache.py
import anthropic

client = anthropic.Anthropic(
    api_key="sk-brievio-...",
    base_url="https://api.brievio.com",
)

# 把提示裡又長又固定的部分標記為可快取。下一次以相同前綴
# 發出的呼叫會命中 Anthropic 的快取 — 只要 10% 的成本。
resp = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "<<你那段 2 萬權杖的系統提示 — schema、規則、範例>>",
            "cache_control": {"type": "ephemeral"},   # 標記為可快取
        },
    ],
    messages=[{"role": "user", "content": "最新的問題…"}],
)

預期節省:對長系統提示的工作負載,可省下 40~70% 的 輸入成本。通常是單一幅度最大的改善。

2. 模型分層 — 別為你用不到的能力付錢

能產出可接受輸出、最便宜的合理模型就是贏家。多數 LLM 工作負載的 難度呈現長尾分布 — 一般的分類或摘要任務,並不需要動用 Opus。

建立一個簡單的難度評估(啟發式規則、分類器,或讓 Haiku 自己來 分流),再據此路由。在超過 50 個 Brievio 帳號上,我們看過光靠這一招 就把聊天成本砍掉 40~60%。

tiering.py
def pick_model(task_difficulty: int) -> str:
    """
    夠好就好,選最便宜的那個模型。
    先依感受到的難度挑選,再用輸出品質驗證。
    """
    if task_difficulty <= 2:
        return "claude-haiku-4-5"     # 比 Opus 便宜約 10 倍
    if task_difficulty <= 4:
        return "gemini-2.5-flash"       # 非常強,輸出更便宜
    if task_difficulty <= 7:
        return "claude-sonnet-4-6"
    return "claude-opus-4-7"          # 只有真正需要時才用

預期節省:一旦有相當比例的流量路由到 Haiku / Gemini Flash,聊天式工作負載可省下 40~60%。

3. 輸出上限與支出限額

輸出權杖的成本大約是輸入的 5 倍。一個讓提示在緊密迴圈裡請求 16K 權杖回應的程式錯誤,正是有人不小心在一個下午就花掉 $400 的原因。 兩層都要守住 — 每次呼叫的 max_tokens,以及儀表板裡 錢包層級的支出限額。

caps.py
# 雙層上限:每次呼叫的 max_tokens,再加上金鑰上的硬性錢包上限。
resp = client.chat.completions.create(
    model="claude-sonnet-4-6",
    messages=[...],
    max_tokens=800,       # 限制單次呼叫的輸出
    stop=["</answer>"],   # 在已知的終止符處截斷
)

# 在 Brievio 儀表板:/app/keys → 為每把金鑰設定「支出上限」。
# 正式金鑰:每天 $50。實驗金鑰:每天 $5。CI 金鑰:每天 $1。

在 Brievio:/app/keys 讓你為每把金鑰 設定每日上限。CI/測試金鑰設成每天 $1,可防止失控的腳本暴衝; 正式金鑰則可以維持寬鬆。

4. 平行化 — 併發 != 更貴

比起平行呼叫,循序呼叫並不會省錢 — 但它確實浪費了實際耗時,而這 往往被「丟給 LLM 更多上下文或更大的模型」給「解決」掉。把彼此獨立的 呼叫平行發出;更快完成;再往下分層。

parallel.py
# 當 N 個任務彼此獨立時,別為循序推理付錢。
import asyncio
from openai import AsyncOpenAI

client = AsyncOpenAI(
    api_key=os.environ["BRIEVIO_API_KEY"],
    base_url="https://api.brievio.com/v1",
)

async def classify_one(text: str) -> str:
    resp = await client.chat.completions.create(
        model="claude-haiku-4-5",     # 平行 + 便宜 = 雙贏
        messages=[{"role": "user", "content": f"Classify: {text}"}],
        max_tokens=20,
    )
    return resp.choices[0].message.content

results = await asyncio.gather(*(classify_one(t) for t in batch))

預期節省:間接 — 通常因為避開了「為了更快而升級 模型」這個陷阱,可省下 10~20%。

5. 不會被重複計費的重試

在 Brievio,失敗的請求(4xx、5xx)永遠不收費 — 但只有失敗的 那一次呼叫是免費的。如果你的重試邏輯一遇到任何暫時性的小狀況就重發、 又沒有退避,那麼在上游狀況不好的日子裡,你的成本可能會被放大 2~3 倍。 請遵守 Retry-After,區分 4xx(你的程式錯誤)與 5xx (暫時性故障),並限制重試次數。

retry.py
from openai import APIError, RateLimitError
import time, random

def call_with_backoff(client, **kwargs):
    for attempt in range(5):
        try:
            return client.chat.completions.create(**kwargs)
        except RateLimitError as e:
            # 有 Retry-After 時就遵守它。
            ra = getattr(e, "retry_after", None) or (2 ** attempt + random.random())
            time.sleep(min(ra, 30))
        except APIError as e:
            if 500 <= e.status_code < 600:
                time.sleep(2 ** attempt + random.random())
                continue
            raise           # 4xx — 是你的程式有問題,不是暫時性故障
    raise RuntimeError("exhausted retries")

完整的重試規則請見 /docs/errors

複利效應

每個技巧單獨套用,只帶來不大的削減。疊在一起,它們就會產生複利: 快取省 50% × 分層省 50% × 設上限省 10% = 原成本的 22% = 省下 78%。 這就是 AI 究竟是一筆預算開銷,還是一個對正式毛利有貢獻的項目,兩者 之間的差別。

Brievio 自家的定價 — 每個模型都比官方參考價低約 15%,並依真實的 權杖數計費 — 在這五個技巧之上,等於再乘上一個固定的折扣係數。在 2026 年駕馭前沿 AI 最聰明的方式是:在穩定不掉線的基礎設施上選用真正的 模型,再從中榨出對的技巧。兩個層次都很重要。

想要免費檢視一下你目前的用量,看看槓桿在哪裡嗎?寄信到 contact@brievio.com, 附上大致的描述,我們就會替你做這份分析。