Claude no es un solo modelo — es una lista de niveles. Opus es el que razona más a fondo, Sonnet es el caballo de batalla equilibrado, Haiku es el rápido y barato. El error más común de los equipos es elegir lo más alto de la gama para todo «por si acaso», y luego ver crecer la factura por un trabajo que un modelo más pequeño habría clavado. El error contrario — forzar cada trabajo difícil por Haiku para ahorrar — te cuesta en silencio en reintentos, respuestas equivocadas y limpieza manual. La respuesta correcta casi nunca es «un solo modelo». Es ajustar el nivel a la tarea.
Este artículo expone para qué sirve de verdad cada nivel de Claude, cuánto cuestan los tres en Brievio, una guía concreta de «usa X cuando…» y un patrón de escalonado que envía el trabajo fácil a Haiku y escala a Opus solo los trabajos más difíciles. Cada nivel en Brievio es el modelo genuino de primera mano sobre AWS Bedrock — contexto completo de 200K, herramientas nativas, visión y caché — con un precio aproximadamente un 15% por debajo de la lista oficial de Anthropic.
Los tres niveles de un vistazo
Aquí está toda la disyuntiva en un solo lugar — tarifa de Brievio (con la lista oficial de Anthropic como referencia), por 1M de tokens, input / output:
- Claude Opus 4.7 — $4.25 / $21.25 (oficial $5 / $25). El razonamiento más profundo y el comportamiento agéntico más sólido: planes largos de varios pasos, refactorizaciones espinosas, especificaciones ambiguas, análisis de nivel investigación. El más capaz y el más caro — por diseño, al que recurres en último lugar.
- Claude Sonnet 4.6 — $2.55 / $12.75 (oficial $3 / $15). El caballo de batalla equilibrado de producción y un programador de élite. Para la mayoría de los equipos este es el predeterminado: lo bastante potente para la gran mayoría del trabajo real, lo bastante rápido para sentirse ágil, y con un precio que no te hace dudar ante el volumen.
- Claude Haiku 4.5 — $0.85 / $4.25 (oficial $1 / $5). Rápido y barato, hecho para trabajos de alto volumen: clasificación, extracción, enrutamiento, etiquetado, transformaciones cortas. Cinco veces más barato que Opus en input — y en tareas acotadas, igual de acertado.
Fíjate en la diferencia. El input de Opus es 5× el de Haiku; el output de Opus es 5× el de Haiku. En una pipeline que ejecuta millones de llamadas, ese multiplicador es la diferencia entre un error de redondeo y una partida que tu equipo de finanzas te pregunta. La habilidad no está en elegir el «mejor» modelo — está en saber qué trabajos necesitan de verdad el nivel más alto y cuáles no.
Usa Haiku cuando…
Haiku es la decisión correcta siempre que la tarea sea acotada, el output sea corto y estés ejecutando muchas. La decisión de cada llamada es pequeña; lo que importa es el volumen.
- Clasificación y enrutamiento — etiquetar tickets, marcar contenido, detección de intención, filtrado de spam, sentimiento. La respuesta es una de un puñado de opciones; Haiku acierta y cuesta céntimos por millar.
- Extracción estructurada — sacar campos de facturas, correos o logs a JSON contra un esquema fijo. Combínalo con caché para el esquema y el coste por llamada se redondea a nada.
- Transformaciones cortas a escala — resumir un párrafo, reescribir una línea, normalizar un valor, generar un slug. Alta frecuencia, poco en juego por llamada.
- El primer paso barato en una pipeline escalonada — triaje que decide si siquiera hace falta ejecutar un modelo mayor (más sobre esto abajo).
Donde Haiku flaquea: razonamiento de varios pasos, juicios sutiles, planificación de largo alcance y cualquier cosa donde equivocarse por poco sale caro. Si te encuentras añadiendo lógica de reintentos y validadores alrededor del output de Haiku, esa es la señal de subir ese trabajo un nivel.
Usa Sonnet cuando… (el predeterminado para la mayoría de los equipos)
Sonnet es donde debería vivir la mayor parte del tráfico de producción. Es un modelo de programación de élite, sigue instrucciones complejas de forma fiable y tiene un precio que te permite usarlo como predeterminado de cada día sin racionarlo. Cuando no sepas qué nivel elegir, empieza aquí — y luego baja a Haiku para el trabajo de volumen y sube a Opus para los pocos trabajos que de verdad lo necesitan.
- Programación del día a día — escribir funcionalidades, arreglar bugs, generar pruebas, revisión de código. Sonnet 4.6 es genuinamente fuerte aquí y rara vez es el cuello de botella.
- Asistentes de cara al cliente y chatbots RAG — buen criterio, respuestas largas y coherentes, uso fiable de herramientas, lo bastante rápido para una latencia interactiva.
- Flujos de contenido y documentos — redactar, resumir documentos largos, transformar contenido estructurado donde la calidad importa pero no hace falta un razonamiento de nivel Opus.
- La mayoría de los bucles de agentes — Sonnet maneja bien a los agentes multiherramienta. Reserva Opus para los muy cargados de planificación o muy ambiguos.
El planteamiento honesto: una buena parte de los equipos podría usar Sonnet para casi todo y estaría bien. La razón para escalonar siquiera es que los extremos — millones de llamadas triviales, o un puñado de otras brutalmente difíciles — son donde más rinde ajustar el modelo a la tarea.
Usa Opus cuando…
Opus es el nivel más alto por algo, pero es al que hay que recurrir de forma deliberada, no por defecto. Úsalo cuando la dificultad justifique de verdad el coste — cuando una respuesta equivocada o superficial sale más cara que los tokens de más.
- Trabajo agéntico difícil y de largo alcance — planes de varios pasos que tienen que sostenerse a lo largo de muchas llamadas a herramientas, donde Sonnet empieza a desviarse o a perder el hilo.
- Refactorizaciones espinosas y arquitectura — cambios grandes que cruzan varios archivos, migraciones delicadas, depurar un problema que abarca varios sistemas.
- Especificaciones ambiguas y análisis profundo — síntesis de nivel investigación, juicios matizados, problemas que le pasarías a tu ingeniero más senior.
- El destino de la escalada — el modelo al que recurre tu pipeline cuando un nivel más barato marca un caso como difícil.
Si Opus y Sonnet producen respuestas indistinguibles en tu tarea, esa tarea no necesitaba Opus — y acabas de pagar aproximadamente 1,7× la tarifa de Sonnet a cambio de nada. La forma de saberlo es compararlos de verdad con tus propios prompts, no dar por hecho que el caro siempre es mejor.
El patrón: baja de nivel por defecto, escala bajo demanda
El movimiento de mayor apalancamiento es dejar de pensar en un solo modelo y empezar a pensar en una escalera. Haz primero lo barato; escala solo cuando lo barato no baste. Como cada nivel de Brievio comparte la misma base_url y el mismo SDK, cambiar de nivel es un cambio de una línea — solo se mueve la cadena del modelo.
# Un patrón de escalonado de modelos: haz primero lo barato, escala solo si hace falta.
# Misma base_url, mismo SDK — solo cambia la cadena del modelo en cada nivel.
from openai import OpenAI
client = OpenAI(
api_key="sk-brievio-...",
base_url="https://api.brievio.com/v1",
)
# Tarifas de Brievio por 1M de tokens (input / output):
# Haiku 4.5 $0.85 / $4.25 — rápido, barato, alto volumen
# Sonnet 4.6 $2.55 / $12.75 — caballo de batalla equilibrado para producción
# Opus 4.7 $4.25 / $21.25 — el razonamiento más profundo, los trabajos más difíciles
def triage(ticket: str) -> str:
"""Haiku decide: ¿puede con esto un modelo barato, o hay que escalar?"""
resp = client.chat.completions.create(
model="claude-haiku-4-5",
max_tokens=20,
messages=[
{"role": "system", "content": "Reply only EASY or HARD."},
{"role": "user", "content": ticket},
],
)
return resp.choices[0].message.content.strip()
def answer(ticket: str) -> str:
tier = "claude-sonnet-4-6" if triage(ticket) == "EASY" else "claude-opus-4-7"
resp = client.chat.completions.create(
model=tier,
max_tokens=800,
messages=[{"role": "user", "content": ticket}],
)
return resp.choices[0].message.content
# La mayoría de los tickets se resuelven con Haiku + Sonnet. Opus solo se dispara con la
# minoría realmente difícil — así el coste medio por ticket queda muy por debajo de una
# pipeline que todo lo manda a Opus.La economía es sencilla: una llamada de triaje en Haiku cuesta una fracción de céntimo. Si dirige la mayoría fácil a Sonnet y solo la minoría difícil a Opus, tu coste medio por tarea queda muy por debajo de una pipeline que todo lo manda a Opus — sin pérdida de calidad en los casos que sí necesitaban el nivel más alto. La misma lógica aplica a la inversa para el trabajo puro de alto volumen, donde Haiku hace toda la tarea:
# Donde Haiku se gana el sueldo: clasificación / extracción de alto volumen.
# A $0.85/1M de input, un millón de documentos cortos cuesta céntimos, no dólares.
import json
LABELS = ["bug", "feature_request", "billing", "spam", "other"]
def classify(text: str) -> str:
resp = client.chat.completions.create(
model="claude-haiku-4-5",
max_tokens=10,
messages=[
{"role": "system",
"content": f"Classify into exactly one of: {LABELS}. Reply with the label only."},
{"role": "user", "content": text},
],
)
return resp.choices[0].message.content.strip()
# 1.000.000 de mensajes entrantes, ~300 tokens de input cada uno, ~3 de output cada uno:
# input: 300M tokens × $0.85 / 1M = $255
# output: 3M tokens × $4.25 / 1M = ~$13
# El mismo trabajo en Opus costaría ~5× el input y ~5× el output sin ninguna ganancia
# de precisión en una tarea tan acotada. Ajusta el nivel a la dificultad.Dos patrones, una sola idea: ajusta el nivel a la dificultad. El volumen y el trabajo fácil van a Haiku, el grueso de la producción va a Sonnet, y Opus se reserva para los trabajos que se lo ganan. Como las llamadas fallidas 4xx/5xx son gratis en Brievio, un reintento de escalada que dé error no te cuesta nada — el contador solo se mueve con una finalización real.
Elección rápida por tarea
Cuando solo necesitas una respuesta, empieza aquí y ajusta después de medir con tus propios prompts:
- Clasificar / etiquetar / enrutar / extraer, a volumen → Haiku 4.5.
- Programación diaria, arreglo de bugs, pruebas, revisión de código → Sonnet 4.6.
- Chatbot de cara al cliente / asistente RAG → Sonnet 4.6.
- Redacción, resúmenes, flujos de contenido → Sonnet 4.6.
- La mayoría de los agentes multiherramienta → Sonnet 4.6; escala a Opus los pasos cargados de planificación.
- Refactorizaciones difíciles, especificaciones ambiguas, análisis profundo → Opus 4.7.
- ¿No estás seguro? → Sonnet 4.6, y luego baja a Haiku para el volumen y sube a Opus para los trabajos más difíciles.
Nada de esto exige comprometerte con un solo nivel de antemano. Prueba el mismo prompt en los tres en Brievio, compara las respuestas y los conteos de tokens, y deja que los resultados elijan el nivel. La tarjeta de tarifas completa está en la página de precios; para la estrategia más amplia de recortar coste sin perder calidad, mira el manual de optimización de costes y nuestra guía para elegir un gateway de API de IA. Escalonar bien es la mayor palanca que tienes — y no cuesta más que una cadena de modelo.