Ves el anuncio: «API de Claude — 80% por debajo del precio oficial». Resulta tentador, y con un prompt de prueba sencillo hasta funciona. Pero el cómputo del modelo cuesta lo que cuesta. Anthropic, OpenAI y Google no ceden la inferencia de sus modelos estrella a revendedores por una quinta parte de la tarifa de lista. Así que, cuando una pasarela cobra 80% por debajo del precio oficial, la pregunta honesta no es «¿cómo logran tanta eficiencia?»; es de dónde sale la capacidad. Solo hay unas pocas respuestas posibles, y ninguna es buena para una carga de trabajo en producción.

Las cuentas que no cuadran

Un precio oficial por token es, a grandes rasgos, el cómputo más el margen del proveedor. Un revendedor compra a esa tarifa de lista —o ligeramente por debajo— mediante un acuerdo por volumen. Vender el resultado un 80% por debajo de la lista significa venderlo muy por debajo de lo que paga. Nadie hace eso a escala, y por mucho tiempo, sin una trampa que terminas pagando en algún otro sitio. Un descuento moderado es un margen sobre infraestructura de volumen. Uno descomunal es una señal de alarma.

Respuesta 1 — no es el modelo de verdad

La forma más barata de ser un 80% más barato es no servir el modelo caro. Un modelo más pequeño, un fine-tune o tu propio prompt envuelto en una plantilla se devuelven bajo el nombre del modelo estrella. Pasa los prompts fáciles y se desmorona con los difíciles. Cuatro pruebas te dicen en un minuto si el modelo es genuino.

Respuesta 2 — capacidad de mercado gris

A veces el modelo es real, pero el suministro no es legítimo: explotación de créditos de prueba, claves filtradas o compartidas, cuentas de arbitraje entre regiones. Es genuinamente barato hasta el momento en que el proveedor lo detecta y lo corta; y entonces tu tráfico de producción empieza a devolver 401 de la noche a la mañana, sin aviso y sin recurso. Una capacidad barata que puede esfumarse no es una capacidad sobre la que construir un negocio.

Respuesta 3 — el contador lo recupera

Un titular del 80% de descuento sobre la tarifa no significa nada si te facturan 5 veces los tokens. Un system prompt inyectado de forma oculta o un objeto usage inflado recuperan el «descuento» con disimulo, y un poco más. Mide los recuentos de tokens — el precio real es tarifa × tokens, y la segunda cifra es la fácil de falsear.

Respuesta 4 — captura con producto gancho

Algunas pasarelas sí subvencionan de verdad los primeros meses para captarte y, después, el precio va subiendo, los créditos de bonificación caducan, el plan gratuito se encoge; y, para entonces, tu integración, tus claves y tu facturación ya viven ahí. La etiqueta de precio era la parte más barata.

Cómo es un descuento en el que puedes confiar

Un descuento sostenible es pequeño y explicable: un margen sobre infraestructura de volumen, no una subvención ni un recorte por lo bajo. Brievio fija el precio de cada modelo en torno a un 15% por debajo de su tarifa oficial de lista (en imagen y vídeo el margen es mayor), publicado modelo por modelo frente a la tarifa de referencia oficial para que puedas auditarlo; la capacidad es el modelo genuino de origen sobre canales cloud de primer nivel —Claude vía AWS Bedrock, Gemini vía Google Vertex—, trazable, no de mercado gris. Es el descuento que resulta aburrido a propósito, porque lo aburrido es lo que sobrevive en producción. Consulta los precios y las comparativas.

Si una pasarela está un 80% por debajo del precio de lista, no necesitas suponer lo peor; solo necesitas preguntar de dónde sale la capacidad y ejecutar las pruebas de autenticidad y de tokens antes de poner tráfico real sobre ella. Las buenas respuestas sobreviven a las preguntas.

Demasiado bueno para ser verdad: ¿de dónde sale la capacidad de una pasarela un 80% más barata?

Las cuentas que no cuadran

Respuesta 1 — no es el modelo de verdad

Respuesta 2 — capacidad de mercado gris

Respuesta 3 — el contador lo recupera

Respuesta 4 — captura con producto gancho

Cómo es un descuento en el que puedes confiar

$ ls ./related

Inflación de tokens: cómo los gateways te cobran 5–25× (y una prueba de 20 líneas)

¿Tu Claude es realmente Claude? Cuatro pruebas para detectar un proxy re-empaquetado o degradado

トークン水増しの実態 — ゲートウェイが請求を5〜25倍にする手口と、20行でできる検証テスト

Token-Inflation: Wie Gateways dir das 5- bis 25-Fache berechnen — und ein 20-zeiliger Test