cd ../返回博客
$Trust//2026年6月4日//6 min read

Demasiado bueno para ser verdad: ¿de dónde sale la capacidad de una pasarela un 80% más barata?

Si una API de Claude cuesta un 80% menos que el precio oficial, las cuentas no cuadran. Repasamos las cuatro respuestas posibles y cómo es un descuento en el que sí puedes confiar.

Ves el anuncio: «API de Claude — 80% por debajo del precio oficial». Resulta tentador, y con un prompt de prueba sencillo hasta funciona. Pero el cómputo del modelo cuesta lo que cuesta. Anthropic, OpenAI y Google no ceden la inferencia de sus modelos estrella a revendedores por una quinta parte de la tarifa de lista. Así que, cuando una pasarela cobra 80% por debajo del precio oficial, la pregunta honesta no es «¿cómo logran tanta eficiencia?»; es de dónde sale la capacidad. Solo hay unas pocas respuestas posibles, y ninguna es buena para una carga de trabajo en producción.

Las cuentas que no cuadran

Un precio oficial por token es, a grandes rasgos, el cómputo más el margen del proveedor. Un revendedor compra a esa tarifa de lista —o ligeramente por debajo— mediante un acuerdo por volumen. Vender el resultado un 80% por debajo de la lista significa venderlo muy por debajo de lo que paga. Nadie hace eso a escala, y por mucho tiempo, sin una trampa que terminas pagando en algún otro sitio. Un descuento moderado es un margen sobre infraestructura de volumen. Uno descomunal es una señal de alarma.

Respuesta 1 — no es el modelo de verdad

La forma más barata de ser un 80% más barato es no servir el modelo caro. Un modelo más pequeño, un fine-tune o tu propio prompt envuelto en una plantilla se devuelven bajo el nombre del modelo estrella. Pasa los prompts fáciles y se desmorona con los difíciles. Cuatro pruebas te dicen en un minuto si el modelo es genuino.

Respuesta 2 — capacidad de mercado gris

A veces el modelo es real, pero el suministro no es legítimo: explotación de créditos de prueba, claves filtradas o compartidas, cuentas de arbitraje entre regiones. Es genuinamente barato hasta el momento en que el proveedor lo detecta y lo corta; y entonces tu tráfico de producción empieza a devolver 401 de la noche a la mañana, sin aviso y sin recurso. Una capacidad barata que puede esfumarse no es una capacidad sobre la que construir un negocio.

Respuesta 3 — el contador lo recupera

Un titular del 80% de descuento sobre la tarifa no significa nada si te facturan 5 veces los tokens. Un system prompt inyectado de forma oculta o un objeto usage inflado recuperan el «descuento» con disimulo, y un poco más. Mide los recuentos de tokens — el precio real es tarifa × tokens, y la segunda cifra es la fácil de falsear.

Respuesta 4 — captura con producto gancho

Algunas pasarelas sí subvencionan de verdad los primeros meses para captarte y, después, el precio va subiendo, los créditos de bonificación caducan, el plan gratuito se encoge; y, para entonces, tu integración, tus claves y tu facturación ya viven ahí. La etiqueta de precio era la parte más barata.

Cómo es un descuento en el que puedes confiar

Un descuento sostenible es pequeño y explicable: un margen sobre infraestructura de volumen, no una subvención ni un recorte por lo bajo. Brievio fija el precio de cada modelo en torno a un 15% por debajo de su tarifa oficial de lista (en imagen y vídeo el margen es mayor), publicado modelo por modelo frente a la tarifa de referencia oficial para que puedas auditarlo; la capacidad es el modelo genuino de origen sobre canales cloud de primer nivel —Claude vía AWS Bedrock, Gemini vía Google Vertex—, trazable, no de mercado gris. Es el descuento que resulta aburrido a propósito, porque lo aburrido es lo que sobrevive en producción. Consulta los precios y las comparativas.

Si una pasarela está un 80% por debajo del precio de lista, no necesitas suponer lo peor; solo necesitas preguntar de dónde sale la capacidad y ejecutar las pruebas de autenticidad y de tokens antes de poner tráfico real sobre ella. Las buenas respuestas sobreviven a las preguntas.