Costos de AIaaS: cómo funciona el pricing y qué esperar pagar en 2026
ia

Costos de AIaaS: cómo funciona el pricing y qué esperar pagar en 2026

Tokens, llamadas a API, instancias por hora, modelos embebidos. El pricing de AIaaS no es obvio y puede sorprenderte con facturas inesperadas. Esta guía explica cómo se cobra cada capa y cómo estimar tus costos antes de comprometerte.

M

Mathías

Autor

11 mar 202610 min de lectura

Uno de los mayores problemas que enfrentan equipos que adoptan AIaaS es que el modelo de costos no se parece a nada que conocían antes. No es una suscripción fija como SaaS. Tampoco es un servidor que pagás por mes. Es una combinación de múltiples métricas que escalan con el uso y pueden crecer de forma inesperada si no sabés qué estás mirando.

Esta guía explica cómo funciona el pricing de AIaaS capa por capa, con números reales de 2026.


La unidad de medida que cambia todo: el token

Antes de hablar de precios, hay que entender qué se cobra.

En los modelos de lenguaje, la unidad de medida es el token. Un token no es exactamente una palabra: es un fragmento de texto de aproximadamente 3-4 caracteres en inglés, o 2-3 en español (los idiomas con caracteres no-ASCII consumen más tokens por palabra).

Regla práctica:

  • 1,000 tokens ≈ 750 palabras en inglés
  • 1,000 tokens ≈ 500-600 palabras en español
  • Una página A4 de texto ≈ 500-800 tokens
  • Este artículo completo ≈ ~3,500 tokens

Los modelos cobran por tokens de entrada (lo que enviás: el prompt, el contexto, el historial) y tokens de salida (lo que el modelo genera como respuesta). Los tokens de salida suelen costar más.


Capa 1: Modelos base (APIs de LLM)

Estructura de precios

Todos los grandes proveedores cobran por millón de tokens (MTok):

Modelo Input ($/MTok) Output ($/MTok) Contexto máximo
GPT-5.4 (OpenAI flagship) $2.50 $15.00 128K tokens
GPT-5 mini $0.25 $2.00 128K tokens
Claude Opus 4.6 (Anthropic flagship) $15.00 $75.00 200K tokens
Claude Sonnet 4.6 $3.00 $15.00 200K tokens
Claude Haiku 3.5 $0.80 $4.00 200K tokens
Gemini 2.5 Pro $1.25 $10.00 1M tokens
Gemini 2.5 Flash $0.15 $0.60 1M tokens
Gemini 2.0 Flash-Lite $0.075 $0.30 1M tokens
Llama 4 Scout (AWS Bedrock) $0.17 $0.17 128K tokens

Precios verificados en fuentes oficiales, marzo 2026. Varían según volumen, región y proveedor.

Ejemplo de costo real

Imaginá que tenés un chatbot de atención al cliente. Por cada conversación:

  • Prompt del sistema: ~500 tokens
  • Historial de conversación: ~1,000 tokens
  • Mensaje del usuario: ~100 tokens
  • Respuesta del modelo: ~300 tokens

Total por conversación: ~1,900 tokens

Con GPT-5 mini a $0.25/$2.00 por MTok:

  • Input (1,600 tokens): $0.00040
  • Output (300 tokens): $0.00060
  • Total: ~$0.00100 por conversación

Con 1,000 conversaciones/día: $1.00/día = **$30/mes**

Con GPT-5.4 (el modelo más potente de OpenAI):

  • Total: ~$0.0085 por conversación
  • 1,000 conversaciones/día = ~$255/mes

La elección del modelo multiplica el costo por 10x. La mayoría de los casos de uso no necesitan el modelo más caro.


Capa 2: Embeddings y búsqueda semántica

Muchas aplicaciones RAG (Retrieval-Augmented Generation) usan embeddings para buscar contexto relevante antes de llamar al LLM.

Modelo Precio
text-embedding-3-small (OpenAI) $0.02/MTok
text-embedding-3-large (OpenAI) $0.13/MTok
Gemini Embedding (Google) $0.15/MTok
Titan Embeddings v2 (AWS) $0.02/MTok

Los embeddings son mucho más baratos que los LLMs. Una base de conocimiento de 1,000 documentos (500 tokens c/u) cuesta **$0.01 en embeddings** para procesar todo.


Capa 3: Procesamiento de imágenes y visión

Los modelos multimodales cobran diferente por imágenes:

Proveedor Costo por imagen
GPT-5.4 (imagen 1080px) ~$0.003-$0.01 según resolución
GPT-image-1 (generación) ~$0.01 (low), $0.04 (medium), $0.17 (high)
Claude Sonnet 4.6 ~$0.005-$0.015
Gemini 2.5 Flash ~$0.0002

Si tenés un sistema que procesa 10,000 facturas/mes con visión por computadora:

  • Con GPT-4o: ~$30-100/mes
  • Con Gemini Flash: ~$2/mes

Capa 4: Infraestructura de agentes

Cuando los agentes ejecutan múltiples pasos, el costo se multiplica. Un agente que tarda 5 llamadas al LLM para completar una tarea cuesta 5x más que una sola llamada.

El problema del contexto acumulativo

En conversaciones largas, el historial se acumula. Una sesión de agente de 10 turnos puede tener:

  • Turno 1: 1,000 tokens de entrada
  • Turno 5: 5,000 tokens de entrada (incluye historial)
  • Turno 10: 10,000 tokens de entrada

El costo no es lineal: crece cuadráticamente si no gestionás el contexto.

Técnicas para controlar esto:

  1. Truncar historial: Mantener solo los últimos N turnos
  2. Resumir contexto: Comprimir el historial con un modelo barato
  3. Usar caché de prompt: OpenAI y Anthropic ofrecen descuentos del 50-90% para prompts repetidos

Prompt caching

Proveedor Descuento en cache hits
OpenAI (Prompt Caching) 90% en input tokens cacheados (GPT-5: $0.25 vs $2.50)
Anthropic (Prompt Caching) 90% en input tokens cacheados
Google (Context Caching) 75% en input tokens cacheados

Si tu sistema siempre envía el mismo prompt del sistema (instrucciones, contexto base), el caching puede reducir tu factura a la mitad o más.


Capa 5: Modelos alojados en cloud (no APIs de terceros)

Algunas empresas prefieren alojar modelos open-source en su propia infraestructura cloud para más control y privacidad.

AWS / Azure / GCP — instancias GPU

Instancia GPU Costo/hora Modelo que puede correr
AWS p3.2xlarge V100 16GB $3.06 Llama 3.1 8B
AWS p3.8xlarge 4x V100 64GB $12.24 Llama 3.1 70B
AWS p4d.24xlarge 8x A100 320GB $32.77 Llama 3.1 405B
Azure NC A100 A100 80GB $3.40 Mistral 7B, Llama 70B

Un modelo Llama 3.1 70B corriendo 24/7 en AWS cuesta ~$8,800/mes. Tiene sentido solo si procesás volúmenes muy altos.

Break-even vs. API externa:

  • A $0.99/MTok (Llama vía Bedrock) con 1 instancia propia = rentable a partir de ~9M tokens/mes
  • Por debajo de eso, la API es más barata

Modelos de pricing alternativos

Por suscripción (usuarios individuales)

Plan Precio Límites
ChatGPT Plus $20/mes Acceso a GPT-5.4 con límites
Claude Pro $17/mes (anual) / $20/mes Acceso a Claude Sonnet 4.6 y Opus 4.6 con límites
Claude Max 5x $100/mes 5x más uso que Pro
Claude Max 20x $200/mes 20x más uso que Pro
Gemini Advanced $20/mes Gemini 2.5 Pro con límites
GitHub Copilot Pro $10/mes Asistencia de código ilimitada

Por empresa (seats)

Plan Precio Características
ChatGPT Enterprise ~$60/usuario/mes Sin límites, privacidad garantizada, SSO
Claude Team (standard) $20/seat/mes (anual) SSO, admin, sin entrenamiento con tus datos
Claude Team (premium) $100/seat/mes (anual) 5x más uso que standard
Claude Enterprise $20/seat + uso API SCIM, audit logs, HIPAA, controles avanzados
GitHub Copilot Business $19/usuario/mes Políticas corporativas, logs

Cómo estimar tu factura antes de empezar

Fórmula base

Costo mensual = 
  (tokens_input_por_request × requests_mensuales × precio_input)
  + (tokens_output_por_request × requests_mensuales × precio_output)

Calculadora rápida

Caso: asistente interno de empresa (50 empleados, 20 consultas/día cada uno)

  • Requests/mes: 50 × 20 × 30 = 30,000
  • Tokens por request: 2,000 input + 500 output
  • Total tokens input: 60M / Total tokens output: 15M
Modelo Costo input Costo output Total/mes
GPT-5.4 $150 $450 $600
GPT-5 mini $15 $60 $75
Claude Sonnet 4.6 $180 $450 $630
Claude Haiku 3.5 $48 $120 $168
Gemini 2.5 Flash $9 $18 $27
Gemini 2.0 Flash-Lite $4.5 $9 $13.5

Los errores de costos más comunes

1. No limitar el output

Si no configurás max_tokens, el modelo puede generar respuestas muy largas innecesariamente. Siempre establecé un límite apropiado para tu caso de uso.

2. No usar el modelo correcto para cada tarea

❌ Usar GPT-5.4 para clasificar emails en 3 categorías
✅ Usar GPT-5 mini o Gemini Flash para clasificación simple

❌ Usar Haiku para análisis legal complejo
✅ Usar Claude Sonnet 4.6 u Opus 4.6 para razonamiento complejo

3. Repetir el mismo contexto sin caching

Si enviás las mismas instrucciones en cada request, sin aprovechar prompt caching, pagás de más en cada llamada.

4. No monitorear el uso en tiempo real

Todos los proveedores tienen dashboards de uso. Configurá alertas de billing antes de que tu experimento de fin de semana se convierta en una factura de $500.

5. Contextos innecesariamente largos

Cada mensaje del historial que incluís en el contexto cuesta tokens. Muchas apps incluyen todo el historial de conversación cuando bastaría con los últimos 3-5 turnos.


Herramientas para controlar costos

Herramienta Para qué sirve
LangSmith (LangChain) Trazabilidad de llamadas, costo por request
Helicone Proxy con logs, caché y analytics de costos
OpenMeter Metering de uso para productos con facturación por uso
Grafana + OpenTelemetry Métricas custom de uso de IA

La tendencia: los precios siguen bajando

Año Mejor modelo flagship input ($/MTok) Mejor modelo económico input ($/MTok)
2023 GPT-4: $30.00
2024 GPT-4o: $5.00 GPT-4o mini: $0.15
2025 GPT-5.4: $2.50 GPT-5 mini: $0.25
2026 (proyectado) ~$1.00 ~$0.05

Los precios de inferencia caen ~70% por año por mejoras en hardware (H100, B200), optimización de modelos (destilación, quantización) y competencia entre proveedores. Lo que hoy cuesta $300/mes probablemente costará $60/mes en 2027.

Implicancia práctica: Si un caso de uso no es rentable hoy por costos de inferencia, podría serlo en 12-18 meses sin cambiar nada en tu arquitectura.


Conclusión: el costo real vs. el valor generado

El error más común no es pagar de más por tokens. Es no calcular el valor que genera la IA contra el costo.

Un agente que cuesta $0.05 por tarea y reemplaza 10 minutos de trabajo humano (a $30/hora = $5 de costo) tiene un ROI de 100x.

El framework para evaluar cualquier implementación AIaaS:

  1. ¿Cuánto cuesta la tarea manual hoy? (tiempo × costo por hora)
  2. ¿Cuánto costaría automatizarla con IA? (usar las fórmulas de arriba)
  3. ¿Cuál es el break-even en volumen?
  4. ¿La calidad del output de IA es suficiente?

Si el paso 4 es sí y el paso 3 tiene sentido, la decisión debería ser simple.


Referencias y herramientas:


Última actualización: Marzo 2026

#aaas#iaas#costos#pricing#openai#anthropic#aws#presupuesto
M

Mathías

Escribo sobre desarrollo de software, trading algorítmico, sistemas agénticos e infraestructura. Algunos posts nacen de un problema concreto — leo, pruebo, escribo lo que aprendí. Otros son mi visión sobre hacia dónde va la industria.

Artículos relacionados