Claude は単一のモデルではありません — ティアの一覧です。Opus は最も深く 推論し、Sonnet はバランスの取れた主力、Haiku は高速で安価な一台。チームが 最もよく犯す間違いは、「安全のために」何にでも最上位を選び、小さいモデルなら 難なくこなせた仕事に請求が膨らんでいくのを眺めることです。逆の間違い — 節約のためにどんな難しい仕事も Haiku に押し込むこと — は、再試行・誤答・ 人手による後始末という形でひそかにコストを生みます。正解はほとんどの場合 「一つのモデル」ではありません。ティアをタスクに合わせることです。
本稿では、各 Claude ティアが実際に何を得意とするのか、Brievio での 3 つの料金、具体的な「こういうときは X を使う」という指針、そして簡単な仕事を Haiku に回し、最も難しい仕事だけ Opus へエスカレートするティアリング手法を 整理します。Brievio のどのティアも、 AWS Bedrock 上で動く本物のファーストパーティ モデルそのもの — フルの 200K コンテキスト、ネイティブツール、ビジョン、 キャッシュをすべて備え、Anthropic の公式定価より約 15% 安い価格です。
3 つのティアを一目で
トレードオフのすべてを一か所にまとめます — Brievio のレート(参考として Anthropic の公式定価を併記)、100 万トークンあたり、入力 / 出力:
- Claude Opus 4.7 — $4.25 / $21.25 (公式 $5 / $25)。最も深い推論と最も強力なエージェント挙動 — 長い 多段プラン、厄介なリファクタ、曖昧な仕様、研究レベルの分析。最も高性能で 最も高価 — 設計上、最後に手を伸ばす一台です。
- Claude Sonnet 4.6 — $2.55 / $12.75 (公式 $3 / $15)。バランスの取れた本番の主力にして一流のコーダー。 多くのチームにとってこれがデフォルトです — 実務の大半を任せられる だけの実力があり、レスポンスが速く感じられるほど機敏で、量が増えても ひるまずに済む価格です。
- Claude Haiku 4.5 — $0.85 / $4.25 (公式 $1 / $5)。高速で安価、大量処理のために作られています — 分類、抽出、 ルーティング、タグ付け、短い変換。入力で Opus の 5 分の 1 のコスト — そして 狭いタスクでは Opus と同じく正確です。
この開きに注目してください。Opus の入力は Haiku の入力の 5 倍、Opus の出力は Haiku の出力の 5 倍です。数百万回の呼び出しが走るパイプラインでは、その倍率が 丸め誤差で済むか、財務チームから問い合わせが来る費目になるかの分かれ目に なります。腕の見せどころは「最良の」モデルを選ぶことではありません — どの仕事が 本当に最上位ティアを必要とし、どれが必要としないかを見極めることです。
こういうときは Haiku を使う…
Haiku が正解なのは、タスクが狭く、出力が短く、それを大量に回すときです。 1 回あたりの判断は小さく、効いてくるのは量です。
- 分類とルーティング — チケットのラベル付け、コンテンツの タグ付け、意図検出、スパムフィルタ、感情分析。答えはわずかな選択肢のどれかで、 Haiku は正しく当て、1,000 件あたり数セントで済みます。
- 構造化抽出 — 請求書、メール、ログから固定スキーマに沿って フィールドを JSON へ抜き出す。スキーマをキャッシュと組み合わせれば、 1 回あたりのコストは限りなくゼロに近づきます。
- 大規模な短い変換 — 1 段落の要約、1 行の書き換え、値の正規化、 スラッグの生成。高頻度・低リスクの呼び出しです。
- ティア化パイプラインでの安い一次処理 — そもそも大きい モデルを動かす必要があるかを判定するトリアージ(詳しくは後述)。
Haiku が苦手なところ — 多段推論、微妙な判断、長期的なプランニング、そして 少しの誤りが高くつくような場面。Haiku の出力のまわりに再試行ロジックや バリデータを足し始めていることに気づいたら、それはその仕事を一つ上の ティアへ動かす合図です。
こういうときは Sonnet を使う…(多くのチームのデフォルト)
Sonnet こそ、本番トラフィックの大半が置かれるべき場所です。一流のコーディング モデルであり、複雑な指示を確実に守り、配給制にせず日々のデフォルトとして 回せる価格です。どのティアを選ぶか迷ったら、ここから始めてください — そこから 量の仕事は Haiku へ下げ、本当に必要な少数の仕事だけ Opus へ上げるのです。
- 日々のコーディング — 機能の実装、バグ修正、テスト生成、 コードレビュー。Sonnet 4.6 はここで本当に強く、ボトルネックになることは めったにありません。
- 顧客向けアシスタントと RAG チャットボット — 的確な判断、 一貫した長文回答、信頼できるツール利用、対話的なレイテンシに足る速さ。
- コンテンツと文書のワークフロー — 下書き、長文書の要約、 品質は重要だが Opus 級の推論までは要らない構造化コンテンツの変換。
- 大半のエージェントループ — Sonnet は複数ツールを使う エージェントをうまくこなします。Opus はプランニングが重い、あるいは 極めて曖昧なものに取っておきましょう。
正直に言えば、かなり多くのチームはほぼすべてを Sonnet で回しても問題なく やっていけます。そもそもティア化する理由は、両極端 — 数百万回の些末な呼び出しか、 ひと握りの猛烈に難しい呼び出し — こそ、モデルをタスクに合わせる効果が最も 大きいからです。
こういうときは Opus を使う…
Opus が最上位ティアなのには理由がありますが、デフォルトではなく、意識して 手を伸ばす一台です。難易度が本当にコストに見合うとき — 誤った答えや浅い答えの ほうが、余分なトークンより高くつくとき — に使ってください。
- 難しく長期的なエージェント作業 — 多数のツール呼び出しを またいで筋を保たねばならない多段プランで、Sonnet が脱線したり筋を見失い 始めるようなもの。
- 厄介なリファクタとアーキテクチャ — 大規模なファイル横断の 変更、ややこしい移行、複数のシステムにまたがる問題のデバッグ。
- 曖昧な仕様と深い分析 — 研究レベルの統合、ニュアンスのある 判断、最も上級のエンジニアに任せたくなるような問題。
- エスカレーション先 — 安いティアが難しいケースと判定したとき、 パイプラインがフォールバックするモデル。
Opus と Sonnet があなたのタスクで見分けのつかない答えを出すなら、その タスクに Opus は要りませんでした — そして Sonnet のレートの約 1.7 倍を 無駄に払ったことになります。確かめる方法は、高いほうが常に良いと決めつける ことではなく、自分のプロンプトで実際に両者を比べることです。
手法 — デフォルトでティアを下げ、必要に応じてエスカレートする
最もレバレッジが効く一手は、一つのモデルで考えるのをやめ、はしごで考え始める ことです。まず安いほうで処理し、それで足りないときだけエスカレートする。 Brievio のどのティアも同じ base_url と同じ SDK を共有するので、 ティアの切り替えは 1 行の変更 — 動くのは model 文字列だけです。
# モデルのティアリング手法 — まず安いほうで処理し、必要なときだけ上のティアへ。
# base_url も SDK も同じ。ティアごとに変わるのは model 文字列だけ。
from openai import OpenAI
client = OpenAI(
api_key="sk-brievio-...",
base_url="https://api.brievio.com/v1",
)
# Brievio のレート(100 万トークンあたり、入力 / 出力):
# Haiku 4.5 $0.85 / $4.25 — 高速・安価・大量処理向き
# Sonnet 4.6 $2.55 / $12.75 — バランスの取れた本番の主力
# Opus 4.7 $4.25 / $21.25 — 最も深い推論、最も難しい仕事
def triage(ticket: str) -> str:
"""Haiku が判定する — 安いモデルで足りるか、上にエスカレートすべきか。"""
resp = client.chat.completions.create(
model="claude-haiku-4-5",
max_tokens=20,
messages=[
{"role": "system", "content": "Reply only EASY or HARD."},
{"role": "user", "content": ticket},
],
)
return resp.choices[0].message.content.strip()
def answer(ticket: str) -> str:
tier = "claude-sonnet-4-6" if triage(ticket) == "EASY" else "claude-opus-4-7"
resp = client.chat.completions.create(
model=tier,
max_tokens=800,
messages=[{"role": "user", "content": ticket}],
)
return resp.choices[0].message.content
# ほとんどのチケットは Haiku + Sonnet で片づく。Opus が動くのは本当に難しい
# 少数だけ — だからチケットあたりの平均コストは、全部 Opus のパイプラインより
# はるかに低く収まる。経済性は単純です。Haiku でのトリアージ呼び出しは 1 セントの何分の一かです。 それが簡単な大多数を Sonnet に振り分け、難しい少数だけを Opus に回すなら、 タスクあたりの平均コストは全部 Opus のパイプラインよりはるかに低く収まります — しかも本当に最上位ティアを必要としたケースで品質を落とすことなく。同じ理屈は、 Haiku が仕事を丸ごとこなす純粋な大量処理にも逆向きに当てはまります:
# Haiku が真価を発揮する場所 — 大量の分類 / 抽出。
# 入力 100 万トークンあたり $0.85 なら、短い文書 100 万件でもドルではなくセント単位。
import json
LABELS = ["bug", "feature_request", "billing", "spam", "other"]
def classify(text: str) -> str:
resp = client.chat.completions.create(
model="claude-haiku-4-5",
max_tokens=10,
messages=[
{"role": "system",
"content": f"Classify into exactly one of: {LABELS}. Reply with the label only."},
{"role": "user", "content": text},
],
)
return resp.choices[0].message.content.strip()
# 受信メッセージ 1,000,000 件、入力 約 300 トークン / 件、出力 約 3 トークン / 件:
# 入力: 300M トークン × $0.85 / 1M = $255
# 出力: 3M トークン × $4.25 / 1M = 約 $13
# 同じ仕事を Opus でやると、これほど狭いタスクでは精度は上がらないのに、入力も出力も
# 約 5 倍のコストがかかる。ティアは難易度に合わせること。2 つの手法、1 つの考え方 — ティアを難易度に合わせる。 量と簡単な仕事は Haiku へ、本番の大半は Sonnet へ、そして Opus はそれに 見合う仕事のために取っておく。Brievio では失敗した 4xx/5xx の呼び出しは無料なので、エラーになった エスカレーションの再試行は一切コストになりません — メーターが動くのは本物の 完了があったときだけです。
タスク別クイック選択
とにかく答えが欲しいときは、ここから始めて、自分のプロンプトで測ってから 調整してください:
- 大量の分類 / タグ付け / ルーティング / 抽出 → Haiku 4.5。
- 日々のコーディング、バグ修正、テスト、コードレビュー → Sonnet 4.6。
- 顧客向けチャットボット / RAG アシスタント → Sonnet 4.6。
- 下書き、要約、コンテンツのワークフロー → Sonnet 4.6。
- 大半の複数ツールエージェント → Sonnet 4.6。プランニングが 重いステップは Opus へエスカレート。
- 難しいリファクタ、曖昧な仕様、深い分析 → Opus 4.7。
- 迷ったら? → Sonnet 4.6。そこから量の仕事は Haiku へ下げ、 最も難しい仕事は Opus へ上げる。
どれも、あらかじめ一つのティアに縛られる必要はありません。同じプロンプトを Brievio で 3 つすべてに試し、答えとトークン数を見比べて、結果にティアを 選ばせてください。全料金表は 料金ページにあります。品質を落とさずコストを 絞り込む全体戦略については コスト最適化プレイブック を、そして AI API ゲートウェイの選び方のガイドをご覧ください。うまくティア化することは、あなたが手にできる最大の レバー — それでいてコストは model 文字列ひとつだけです。