Ya decidiste que un gateway tiene sentido — más de un proveedor, un único endpoint compatible con OpenAI, una sola factura. Ahora viene la pregunta difícil: cuál, sin acabar sobre un revendedor reempaquetado, que infla tokens y se cae a cada rato, un 80% por debajo de la lista oficial porque la capacidad se evapora de la noche a la mañana. Esta es la checklist que nosotros usaríamos, sobre las cinco cosas que de verdad importan — y un script de un minuto para poner a prueba las afirmaciones en lugar de creértelas.
1. Autenticidad — ¿es el modelo genuino?
El identificador del modelo es lo más fácil de falsificar. Un revendedor puede servirte un modelo más pequeño, un fine-tune o tu prompt envuelto en una plantilla fija detrás de claude-sonnet-4-6. Verifica capacidades que una versión recortada no puede fingir: ventana de contexto completa, llamadas a herramientas nativas, visión. El artículo sobre autenticidad de modelos trae las pruebas.
- ¿El modelo sostiene su contexto completo declarado (aguja en un pajar a 150K+)?
- ¿Funcionan las herramientas y la visión nativas, o están simuladas como texto?
- ¿El modelo es rastreable hasta una fuente de primera mano (Bedrock, Vertex), o es inexplicable?
2. Honestidad en la facturación — ¿el contador dice la verdad?
Pagas por token, y el gateway reporta el conteo. Inflarlo — con un system prompt inyectado a escondidas, o con un objeto usage inventado — es la forma más silenciosa de cobrarte de más entre 5 y 25 veces. Compruébalo en 20 líneas (el artículo sobre inflación de tokens).
- ¿Los tokens reportados coinciden con tu texto real, más una pequeña sobrecarga fija?
- ¿Las llamadas fallidas 4xx/5xx son gratis, o pagas por los errores?
- ¿Se respeta el caché de prompts — aciertos de caché reales a la tarifa reducida?
3. Fiabilidad — ¿aguantará bajo carga?
Un gateway añade un salto; tiene que justificarlo siendo más fiable que el upstream, no menos. Busca comportamiento de falla rápida (errores que puedes reintentar, no cuelgues de 90 segundos) y enrutamiento que se aparte de un backend que se degrada.
- ¿Hay una página de estado pública y un SLA publicado con cifras?
- ¿Failover entre proveedores, o un único upstream por llamada?
- ¿Falla rápido y de forma visible para que tus reintentos funcionen, o se cuelga en silencio?
4. Cobertura — ¿una sola clave para el trabajo que de verdad haces?
- ¿Chat, imagen y video con la misma clave, o solo texto?
- ¿Compatible con OpenAI en todo ello — streaming, herramientas, visión, modo JSON?
- ¿Rutas nativas donde importan (por ejemplo el
/v1/messagesde Anthropic) intactas?
5. Precio y condiciones — ¿barato por algún motivo, o con precio justo?
El precio es donde está cebada la trampa. Un descuento moderado bajo la lista oficial es un margen sobre infraestructura a volumen. Un gateway un 80% por debajo de la lista está revendiendo capacidad de mercado gris que desaparece — el ahorro sale de algún lado, y normalmente sale de la autenticidad o de la estabilidad.
- ¿Con precio por modelo contra la tarifa oficial (auditable), no un descuento general vago?
- ¿Pago por uso, o atrapado tras suscripciones y créditos que caducan?
- ¿El saldo caduca? ¿Hay mínimos?
La rutina de due diligence de un minuto
No te creas la palabra de la página de marketing — ni la nuestra. Ejecuta las comprobaciones:
# gateway_due_diligence.py
# Ejecútalo contra cualquier gateway compatible con OpenAI antes de confiarle producción.
# Cinco comprobaciones, bastante menos de un centavo, alrededor de un minuto.
import tiktoken
from openai import OpenAI
client = OpenAI(api_key="sk-...", base_url="https://api.brievio.com/v1")
# 1. FACTURACION HONESTA — prompt_tokens reportado frente a un conteo local del tokenizador.
msgs = [{"role": "user", "content": "Reply with the single word: ok."}]
r = client.chat.completions.create(model="claude-sonnet-4-6", messages=msgs, max_tokens=5)
local = len(tiktoken.get_encoding("cl100k_base").encode(msgs[0]["content"]))
print("token ratio (want ~1.0-1.6x):", round(r.usage.prompt_tokens / local, 1))
# 2. MODELO GENUINO — un tool_call estructurado de verdad, no JSON incrustado en texto.
r = client.chat.completions.create(
model="claude-sonnet-4-6",
messages=[{"role": "user", "content": "weather in Tokyo? use the tool"}],
tools=[{"type": "function", "function": {"name": "get_weather",
"parameters": {"type": "object", "properties": {"city": {"type": "string"}}}}}],
)
print("returns real tool_calls:", r.choices[0].message.tool_calls is not None)
# 3. LLAMADAS FALLIDAS GRATIS — envia una peticion deliberadamente mala y luego revisa tu
# pagina de usage: un 4xx/5xx no deberia costar nada.
# 4. CONTEXTO — aguja en un pajar en la ventana que el modelo dice tener (mira el snippet del
# articulo "is your Claude really Claude").
# 5. CONDICIONES — existe una pagina de estado publica + un SLA publicado; el precio es por
# modelo contra la tarifa oficial, no un vago "80% de descuento en todo".Dónde queda Brievio en su propia checklist
Siendo honestos con nuestra propia tarjeta de puntuación: Brievio enruta los modelos genuinos de primera mano sobre canales cloud de primer nivel con el contexto completo y las funciones nativas intactos; factura conteos de tokens reales y no cobra nada por las llamadas fallidas; pone a cada modelo alrededor de un 15% por debajo de la lista oficial (imagen y video más abajo), con pago por uso y un saldo que no caduca. Donde no ganamos: ir directo nos sigue superando en acceso a modelos desde el día uno y en contratos como proveedor de registro, y OpenRouter cubre una cola larga de código abierto mucho más amplia. Mira las comparativas completas y los precios, y luego ejecuta el script de arriba contra los gateways que tengas en tu lista corta.
El sentido entero de una checklist es que puedes aplicarla a todos, incluido el proveedor que la escribió. Aplícanosla a nosotros.