Costos de AIaaS: cómo funciona el pricing y qué esperar pagar en 2026

Uno de los mayores problemas que enfrentan equipos que adoptan AIaaS es que el modelo de costos no se parece a nada que conocían antes. No es una suscripción fija como SaaS. Tampoco es un servidor que pagás por mes. Es una combinación de múltiples métricas que escalan con el uso y pueden crecer de forma inesperada si no sabés qué estás mirando.

Esta guía explica cómo funciona el pricing de AIaaS capa por capa, con números reales de 2026.

La unidad de medida que cambia todo: el token

Antes de hablar de precios, hay que entender qué se cobra.

En los modelos de lenguaje, la unidad de medida es el token. Un token no es exactamente una palabra: es un fragmento de texto de aproximadamente 3-4 caracteres en inglés, o 2-3 en español (los idiomas con caracteres no-ASCII consumen más tokens por palabra).

Regla práctica:

1,000 tokens ≈ 750 palabras en inglés
1,000 tokens ≈ 500-600 palabras en español
Una página A4 de texto ≈ 500-800 tokens
Este artículo completo ≈ ~3,500 tokens

Los modelos cobran por tokens de entrada (lo que enviás: el prompt, el contexto, el historial) y tokens de salida (lo que el modelo genera como respuesta). Los tokens de salida suelen costar más.

Capa 1: Modelos base (APIs de LLM)

Estructura de precios

Todos los grandes proveedores cobran por millón de tokens (MTok):

Modelo	Input ($/MTok)	Output ($/MTok)	Contexto máximo
GPT-5.4 (OpenAI flagship)	$2.50	$15.00	128K tokens
GPT-5 mini	$0.25	$2.00	128K tokens
Claude Opus 4.6 (Anthropic flagship)	$15.00	$75.00	200K tokens
Claude Sonnet 4.6	$3.00	$15.00	200K tokens
Claude Haiku 3.5	$0.80	$4.00	200K tokens
Gemini 2.5 Pro	$1.25	$10.00	1M tokens
Gemini 2.5 Flash	$0.15	$0.60	1M tokens
Gemini 2.0 Flash-Lite	$0.075	$0.30	1M tokens
Llama 4 Scout (AWS Bedrock)	$0.17	$0.17	128K tokens

Precios verificados en fuentes oficiales, marzo 2026. Varían según volumen, región y proveedor.

Ejemplo de costo real

Imaginá que tenés un chatbot de atención al cliente. Por cada conversación:

Prompt del sistema: ~500 tokens
Historial de conversación: ~1,000 tokens
Mensaje del usuario: ~100 tokens
Respuesta del modelo: ~300 tokens

Total por conversación: ~1,900 tokens

Con GPT-5 mini a $0.25/$2.00 por MTok:

Input (1,600 tokens): $0.00040
Output (300 tokens): $0.00060
Total: ~$0.00100 por conversación

Con 1,000 conversaciones/día: $1.00/día = **$30/mes**

Con GPT-5.4 (el modelo más potente de OpenAI):

Total: ~$0.0085 por conversación
1,000 conversaciones/día = ~$255/mes

La elección del modelo multiplica el costo por 10x. La mayoría de los casos de uso no necesitan el modelo más caro.

Capa 2: Embeddings y búsqueda semántica

Muchas aplicaciones RAG (Retrieval-Augmented Generation) usan embeddings para buscar contexto relevante antes de llamar al LLM.

Modelo	Precio
text-embedding-3-small (OpenAI)	$0.02/MTok
text-embedding-3-large (OpenAI)	$0.13/MTok
Gemini Embedding (Google)	$0.15/MTok
Titan Embeddings v2 (AWS)	$0.02/MTok

Los embeddings son mucho más baratos que los LLMs. Una base de conocimiento de 1,000 documentos (500 tokens c/u) cuesta **$0.01 en embeddings** para procesar todo.

Capa 3: Procesamiento de imágenes y visión

Los modelos multimodales cobran diferente por imágenes:

Proveedor	Costo por imagen
GPT-5.4 (imagen 1080px)	~$0.003-$0.01 según resolución
GPT-image-1 (generación)	~$0.01 (low), $0.04 (medium), $0.17 (high)
Claude Sonnet 4.6	~$0.005-$0.015
Gemini 2.5 Flash	~$0.0002

Si tenés un sistema que procesa 10,000 facturas/mes con visión por computadora:

Con GPT-4o: ~$30-100/mes
Con Gemini Flash: ~$2/mes

Capa 4: Infraestructura de agentes

Cuando los agentes ejecutan múltiples pasos, el costo se multiplica. Un agente que tarda 5 llamadas al LLM para completar una tarea cuesta 5x más que una sola llamada.

El problema del contexto acumulativo

En conversaciones largas, el historial se acumula. Una sesión de agente de 10 turnos puede tener:

Turno 1: 1,000 tokens de entrada
Turno 5: 5,000 tokens de entrada (incluye historial)
Turno 10: 10,000 tokens de entrada

El costo no es lineal: crece cuadráticamente si no gestionás el contexto.

Técnicas para controlar esto:

Truncar historial: Mantener solo los últimos N turnos
Resumir contexto: Comprimir el historial con un modelo barato
Usar caché de prompt: OpenAI y Anthropic ofrecen descuentos del 50-90% para prompts repetidos

Prompt caching

Proveedor	Descuento en cache hits
OpenAI (Prompt Caching)	90% en input tokens cacheados (GPT-5: $0.25 vs $2.50)
Anthropic (Prompt Caching)	90% en input tokens cacheados
Google (Context Caching)	75% en input tokens cacheados

Si tu sistema siempre envía el mismo prompt del sistema (instrucciones, contexto base), el caching puede reducir tu factura a la mitad o más.

Capa 5: Modelos alojados en cloud (no APIs de terceros)

Algunas empresas prefieren alojar modelos open-source en su propia infraestructura cloud para más control y privacidad.

AWS / Azure / GCP — instancias GPU

Instancia	GPU	Costo/hora	Modelo que puede correr
AWS p3.2xlarge	V100 16GB	$3.06	Llama 3.1 8B
AWS p3.8xlarge	4x V100 64GB	$12.24	Llama 3.1 70B
AWS p4d.24xlarge	8x A100 320GB	$32.77	Llama 3.1 405B
Azure NC A100	A100 80GB	$3.40	Mistral 7B, Llama 70B

Un modelo Llama 3.1 70B corriendo 24/7 en AWS cuesta ~$8,800/mes. Tiene sentido solo si procesás volúmenes muy altos.

Break-even vs. API externa:

A $0.99/MTok (Llama vía Bedrock) con 1 instancia propia = rentable a partir de ~9M tokens/mes
Por debajo de eso, la API es más barata

Modelos de pricing alternativos

Por suscripción (usuarios individuales)

Plan	Precio	Límites
ChatGPT Plus	$20/mes	Acceso a GPT-5.4 con límites
Claude Pro	$17/mes (anual) / $20/mes	Acceso a Claude Sonnet 4.6 y Opus 4.6 con límites
Claude Max 5x	$100/mes	5x más uso que Pro
Claude Max 20x	$200/mes	20x más uso que Pro
Gemini Advanced	$20/mes	Gemini 2.5 Pro con límites
GitHub Copilot Pro	$10/mes	Asistencia de código ilimitada

Por empresa (seats)

Plan	Precio	Características
ChatGPT Enterprise	~$60/usuario/mes	Sin límites, privacidad garantizada, SSO
Claude Team (standard)	$20/seat/mes (anual)	SSO, admin, sin entrenamiento con tus datos
Claude Team (premium)	$100/seat/mes (anual)	5x más uso que standard
Claude Enterprise	$20/seat + uso API	SCIM, audit logs, HIPAA, controles avanzados
GitHub Copilot Business	$19/usuario/mes	Políticas corporativas, logs

Cómo estimar tu factura antes de empezar

Fórmula base

Costo mensual = 
  (tokens_input_por_request × requests_mensuales × precio_input)
  + (tokens_output_por_request × requests_mensuales × precio_output)

Calculadora rápida

Caso: asistente interno de empresa (50 empleados, 20 consultas/día cada uno)

Requests/mes: 50 × 20 × 30 = 30,000
Tokens por request: 2,000 input + 500 output
Total tokens input: 60M / Total tokens output: 15M

Modelo	Costo input	Costo output	Total/mes
GPT-5.4	$150	$450	$600
GPT-5 mini	$15	$60	$75
Claude Sonnet 4.6	$180	$450	$630
Claude Haiku 3.5	$48	$120	$168
Gemini 2.5 Flash	$9	$18	$27
Gemini 2.0 Flash-Lite	$4.5	$9	$13.5

Los errores de costos más comunes

1. No limitar el output

Si no configurás max_tokens, el modelo puede generar respuestas muy largas innecesariamente. Siempre establecé un límite apropiado para tu caso de uso.

2. No usar el modelo correcto para cada tarea

❌ Usar GPT-5.4 para clasificar emails en 3 categorías
✅ Usar GPT-5 mini o Gemini Flash para clasificación simple

❌ Usar Haiku para análisis legal complejo
✅ Usar Claude Sonnet 4.6 u Opus 4.6 para razonamiento complejo

3. Repetir el mismo contexto sin caching

Si enviás las mismas instrucciones en cada request, sin aprovechar prompt caching, pagás de más en cada llamada.

4. No monitorear el uso en tiempo real

Todos los proveedores tienen dashboards de uso. Configurá alertas de billing antes de que tu experimento de fin de semana se convierta en una factura de $500.

5. Contextos innecesariamente largos

Cada mensaje del historial que incluís en el contexto cuesta tokens. Muchas apps incluyen todo el historial de conversación cuando bastaría con los últimos 3-5 turnos.

Herramientas para controlar costos

Herramienta	Para qué sirve
LangSmith (LangChain)	Trazabilidad de llamadas, costo por request
Helicone	Proxy con logs, caché y analytics de costos
OpenMeter	Metering de uso para productos con facturación por uso
Grafana + OpenTelemetry	Métricas custom de uso de IA

La tendencia: los precios siguen bajando

Año	Mejor modelo flagship input ($/MTok)	Mejor modelo económico input ($/MTok)
2023	GPT-4: $30.00	—
2024	GPT-4o: $5.00	GPT-4o mini: $0.15
2025	GPT-5.4: $2.50	GPT-5 mini: $0.25
2026 (proyectado)	~$1.00	~$0.05

Los precios de inferencia caen ~70% por año por mejoras en hardware (H100, B200), optimización de modelos (destilación, quantización) y competencia entre proveedores. Lo que hoy cuesta $300/mes probablemente costará $60/mes en 2027.

Implicancia práctica: Si un caso de uso no es rentable hoy por costos de inferencia, podría serlo en 12-18 meses sin cambiar nada en tu arquitectura.

Conclusión: el costo real vs. el valor generado

El error más común no es pagar de más por tokens. Es no calcular el valor que genera la IA contra el costo.

Un agente que cuesta $0.05 por tarea y reemplaza 10 minutos de trabajo humano (a $30/hora = $5 de costo) tiene un ROI de 100x.

El framework para evaluar cualquier implementación AIaaS:

¿Cuánto cuesta la tarea manual hoy? (tiempo × costo por hora)
¿Cuánto costaría automatizarla con IA? (usar las fórmulas de arriba)
¿Cuál es el break-even en volumen?
¿La calidad del output de IA es suficiente?

Si el paso 4 es sí y el paso 3 tiene sentido, la decisión debería ser simple.

Referencias y herramientas:

OpenAI Pricing — Precios actualizados GPT-5.4, GPT-5 mini
Anthropic Pricing — Precios de Claude Opus/Sonnet/Haiku 4.x
Google Gemini API Pricing — Precios Gemini 2.5 Pro/Flash y Gemini 3.x
AWS Bedrock Pricing — Múltiples modelos (Anthropic, Meta, Mistral, Amazon Nova)
Tokencost — Librería Python para calcular costos de tokens
LLM Price Check — Comparador de precios en tiempo real

Última actualización: Marzo 2026