Costos de AIaaS: cómo funciona el pricing y qué esperar pagar en 2026
Tokens, llamadas a API, instancias por hora, modelos embebidos. El pricing de AIaaS no es obvio y puede sorprenderte con facturas inesperadas. Esta guía explica cómo se cobra cada capa y cómo estimar tus costos antes de comprometerte.
Mathías
Autor
Uno de los mayores problemas que enfrentan equipos que adoptan AIaaS es que el modelo de costos no se parece a nada que conocían antes. No es una suscripción fija como SaaS. Tampoco es un servidor que pagás por mes. Es una combinación de múltiples métricas que escalan con el uso y pueden crecer de forma inesperada si no sabés qué estás mirando.
Esta guía explica cómo funciona el pricing de AIaaS capa por capa, con números reales de 2026.
La unidad de medida que cambia todo: el token
Antes de hablar de precios, hay que entender qué se cobra.
En los modelos de lenguaje, la unidad de medida es el token. Un token no es exactamente una palabra: es un fragmento de texto de aproximadamente 3-4 caracteres en inglés, o 2-3 en español (los idiomas con caracteres no-ASCII consumen más tokens por palabra).
Regla práctica:
- 1,000 tokens ≈ 750 palabras en inglés
- 1,000 tokens ≈ 500-600 palabras en español
- Una página A4 de texto ≈ 500-800 tokens
- Este artículo completo ≈ ~3,500 tokens
Los modelos cobran por tokens de entrada (lo que enviás: el prompt, el contexto, el historial) y tokens de salida (lo que el modelo genera como respuesta). Los tokens de salida suelen costar más.
Capa 1: Modelos base (APIs de LLM)
Estructura de precios
Todos los grandes proveedores cobran por millón de tokens (MTok):
| Modelo | Input ($/MTok) | Output ($/MTok) | Contexto máximo |
|---|---|---|---|
| GPT-5.4 (OpenAI flagship) | $2.50 | $15.00 | 128K tokens |
| GPT-5 mini | $0.25 | $2.00 | 128K tokens |
| Claude Opus 4.6 (Anthropic flagship) | $15.00 | $75.00 | 200K tokens |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K tokens |
| Claude Haiku 3.5 | $0.80 | $4.00 | 200K tokens |
| Gemini 2.5 Pro | $1.25 | $10.00 | 1M tokens |
| Gemini 2.5 Flash | $0.15 | $0.60 | 1M tokens |
| Gemini 2.0 Flash-Lite | $0.075 | $0.30 | 1M tokens |
| Llama 4 Scout (AWS Bedrock) | $0.17 | $0.17 | 128K tokens |
Precios verificados en fuentes oficiales, marzo 2026. Varían según volumen, región y proveedor.
Ejemplo de costo real
Imaginá que tenés un chatbot de atención al cliente. Por cada conversación:
- Prompt del sistema: ~500 tokens
- Historial de conversación: ~1,000 tokens
- Mensaje del usuario: ~100 tokens
- Respuesta del modelo: ~300 tokens
Total por conversación: ~1,900 tokens
Con GPT-5 mini a $0.25/$2.00 por MTok:
- Input (1,600 tokens): $0.00040
- Output (300 tokens): $0.00060
- Total: ~$0.00100 por conversación
Con 1,000 conversaciones/día: $1.00/día = **$30/mes**
Con GPT-5.4 (el modelo más potente de OpenAI):
- Total: ~$0.0085 por conversación
- 1,000 conversaciones/día = ~$255/mes
La elección del modelo multiplica el costo por 10x. La mayoría de los casos de uso no necesitan el modelo más caro.
Capa 2: Embeddings y búsqueda semántica
Muchas aplicaciones RAG (Retrieval-Augmented Generation) usan embeddings para buscar contexto relevante antes de llamar al LLM.
| Modelo | Precio |
|---|---|
| text-embedding-3-small (OpenAI) | $0.02/MTok |
| text-embedding-3-large (OpenAI) | $0.13/MTok |
| Gemini Embedding (Google) | $0.15/MTok |
| Titan Embeddings v2 (AWS) | $0.02/MTok |
Los embeddings son mucho más baratos que los LLMs. Una base de conocimiento de 1,000 documentos (500 tokens c/u) cuesta **$0.01 en embeddings** para procesar todo.
Capa 3: Procesamiento de imágenes y visión
Los modelos multimodales cobran diferente por imágenes:
| Proveedor | Costo por imagen |
|---|---|
| GPT-5.4 (imagen 1080px) | ~$0.003-$0.01 según resolución |
| GPT-image-1 (generación) | ~$0.01 (low), $0.04 (medium), $0.17 (high) |
| Claude Sonnet 4.6 | ~$0.005-$0.015 |
| Gemini 2.5 Flash | ~$0.0002 |
Si tenés un sistema que procesa 10,000 facturas/mes con visión por computadora:
- Con GPT-4o: ~$30-100/mes
- Con Gemini Flash: ~$2/mes
Capa 4: Infraestructura de agentes
Cuando los agentes ejecutan múltiples pasos, el costo se multiplica. Un agente que tarda 5 llamadas al LLM para completar una tarea cuesta 5x más que una sola llamada.
El problema del contexto acumulativo
En conversaciones largas, el historial se acumula. Una sesión de agente de 10 turnos puede tener:
- Turno 1: 1,000 tokens de entrada
- Turno 5: 5,000 tokens de entrada (incluye historial)
- Turno 10: 10,000 tokens de entrada
El costo no es lineal: crece cuadráticamente si no gestionás el contexto.
Técnicas para controlar esto:
- Truncar historial: Mantener solo los últimos N turnos
- Resumir contexto: Comprimir el historial con un modelo barato
- Usar caché de prompt: OpenAI y Anthropic ofrecen descuentos del 50-90% para prompts repetidos
Prompt caching
| Proveedor | Descuento en cache hits |
|---|---|
| OpenAI (Prompt Caching) | 90% en input tokens cacheados (GPT-5: $0.25 vs $2.50) |
| Anthropic (Prompt Caching) | 90% en input tokens cacheados |
| Google (Context Caching) | 75% en input tokens cacheados |
Si tu sistema siempre envía el mismo prompt del sistema (instrucciones, contexto base), el caching puede reducir tu factura a la mitad o más.
Capa 5: Modelos alojados en cloud (no APIs de terceros)
Algunas empresas prefieren alojar modelos open-source en su propia infraestructura cloud para más control y privacidad.
AWS / Azure / GCP — instancias GPU
| Instancia | GPU | Costo/hora | Modelo que puede correr |
|---|---|---|---|
| AWS p3.2xlarge | V100 16GB | $3.06 | Llama 3.1 8B |
| AWS p3.8xlarge | 4x V100 64GB | $12.24 | Llama 3.1 70B |
| AWS p4d.24xlarge | 8x A100 320GB | $32.77 | Llama 3.1 405B |
| Azure NC A100 | A100 80GB | $3.40 | Mistral 7B, Llama 70B |
Un modelo Llama 3.1 70B corriendo 24/7 en AWS cuesta ~$8,800/mes. Tiene sentido solo si procesás volúmenes muy altos.
Break-even vs. API externa:
- A $0.99/MTok (Llama vía Bedrock) con 1 instancia propia = rentable a partir de ~9M tokens/mes
- Por debajo de eso, la API es más barata
Modelos de pricing alternativos
Por suscripción (usuarios individuales)
| Plan | Precio | Límites |
|---|---|---|
| ChatGPT Plus | $20/mes | Acceso a GPT-5.4 con límites |
| Claude Pro | $17/mes (anual) / $20/mes | Acceso a Claude Sonnet 4.6 y Opus 4.6 con límites |
| Claude Max 5x | $100/mes | 5x más uso que Pro |
| Claude Max 20x | $200/mes | 20x más uso que Pro |
| Gemini Advanced | $20/mes | Gemini 2.5 Pro con límites |
| GitHub Copilot Pro | $10/mes | Asistencia de código ilimitada |
Por empresa (seats)
| Plan | Precio | Características |
|---|---|---|
| ChatGPT Enterprise | ~$60/usuario/mes | Sin límites, privacidad garantizada, SSO |
| Claude Team (standard) | $20/seat/mes (anual) | SSO, admin, sin entrenamiento con tus datos |
| Claude Team (premium) | $100/seat/mes (anual) | 5x más uso que standard |
| Claude Enterprise | $20/seat + uso API | SCIM, audit logs, HIPAA, controles avanzados |
| GitHub Copilot Business | $19/usuario/mes | Políticas corporativas, logs |
Cómo estimar tu factura antes de empezar
Fórmula base
Costo mensual =
(tokens_input_por_request × requests_mensuales × precio_input)
+ (tokens_output_por_request × requests_mensuales × precio_output)
Calculadora rápida
Caso: asistente interno de empresa (50 empleados, 20 consultas/día cada uno)
- Requests/mes: 50 × 20 × 30 = 30,000
- Tokens por request: 2,000 input + 500 output
- Total tokens input: 60M / Total tokens output: 15M
| Modelo | Costo input | Costo output | Total/mes |
|---|---|---|---|
| GPT-5.4 | $150 | $450 | $600 |
| GPT-5 mini | $15 | $60 | $75 |
| Claude Sonnet 4.6 | $180 | $450 | $630 |
| Claude Haiku 3.5 | $48 | $120 | $168 |
| Gemini 2.5 Flash | $9 | $18 | $27 |
| Gemini 2.0 Flash-Lite | $4.5 | $9 | $13.5 |
Los errores de costos más comunes
1. No limitar el output
Si no configurás max_tokens, el modelo puede generar respuestas muy largas innecesariamente. Siempre establecé un límite apropiado para tu caso de uso.
2. No usar el modelo correcto para cada tarea
❌ Usar GPT-5.4 para clasificar emails en 3 categorías
✅ Usar GPT-5 mini o Gemini Flash para clasificación simple
❌ Usar Haiku para análisis legal complejo
✅ Usar Claude Sonnet 4.6 u Opus 4.6 para razonamiento complejo
3. Repetir el mismo contexto sin caching
Si enviás las mismas instrucciones en cada request, sin aprovechar prompt caching, pagás de más en cada llamada.
4. No monitorear el uso en tiempo real
Todos los proveedores tienen dashboards de uso. Configurá alertas de billing antes de que tu experimento de fin de semana se convierta en una factura de $500.
5. Contextos innecesariamente largos
Cada mensaje del historial que incluís en el contexto cuesta tokens. Muchas apps incluyen todo el historial de conversación cuando bastaría con los últimos 3-5 turnos.
Herramientas para controlar costos
| Herramienta | Para qué sirve |
|---|---|
| LangSmith (LangChain) | Trazabilidad de llamadas, costo por request |
| Helicone | Proxy con logs, caché y analytics de costos |
| OpenMeter | Metering de uso para productos con facturación por uso |
| Grafana + OpenTelemetry | Métricas custom de uso de IA |
La tendencia: los precios siguen bajando
| Año | Mejor modelo flagship input ($/MTok) | Mejor modelo económico input ($/MTok) |
|---|---|---|
| 2023 | GPT-4: $30.00 | — |
| 2024 | GPT-4o: $5.00 | GPT-4o mini: $0.15 |
| 2025 | GPT-5.4: $2.50 | GPT-5 mini: $0.25 |
| 2026 (proyectado) | ~$1.00 | ~$0.05 |
Los precios de inferencia caen ~70% por año por mejoras en hardware (H100, B200), optimización de modelos (destilación, quantización) y competencia entre proveedores. Lo que hoy cuesta $300/mes probablemente costará $60/mes en 2027.
Implicancia práctica: Si un caso de uso no es rentable hoy por costos de inferencia, podría serlo en 12-18 meses sin cambiar nada en tu arquitectura.
Conclusión: el costo real vs. el valor generado
El error más común no es pagar de más por tokens. Es no calcular el valor que genera la IA contra el costo.
Un agente que cuesta $0.05 por tarea y reemplaza 10 minutos de trabajo humano (a $30/hora = $5 de costo) tiene un ROI de 100x.
El framework para evaluar cualquier implementación AIaaS:
- ¿Cuánto cuesta la tarea manual hoy? (tiempo × costo por hora)
- ¿Cuánto costaría automatizarla con IA? (usar las fórmulas de arriba)
- ¿Cuál es el break-even en volumen?
- ¿La calidad del output de IA es suficiente?
Si el paso 4 es sí y el paso 3 tiene sentido, la decisión debería ser simple.
Referencias y herramientas:
- OpenAI Pricing — Precios actualizados GPT-5.4, GPT-5 mini
- Anthropic Pricing — Precios de Claude Opus/Sonnet/Haiku 4.x
- Google Gemini API Pricing — Precios Gemini 2.5 Pro/Flash y Gemini 3.x
- AWS Bedrock Pricing — Múltiples modelos (Anthropic, Meta, Mistral, Amazon Nova)
- Tokencost — Librería Python para calcular costos de tokens
- LLM Price Check — Comparador de precios en tiempo real
Última actualización: Marzo 2026