Calculadora de Costes de Agentes de IA

Modela el coste de workflows de agentes de IA multi-paso con selección de modelo por paso y multiplicadores de overhead

~/agent-cost
Presets:
$0.02

Sobrecostes

+%
%
+tokens

Coste por ejecución

$0.02

Ejecuciones/día:

Diario: $1.07

Estimación mensual

$32.05

PasoModeloLlamadasCoste%
Step 1Claude 4.5 Opus1$0.02100.0%

¿Qué es una Calculadora de Costes de Agentes de IA?

Una calculadora de costes de agentes de IA estima el coste operativo total de ejecutar flujos de trabajo de agentes de IA que realizan múltiples llamadas a LLMs por ejecución. A diferencia de una simple calculadora de costes de API que calcula el precio de una sola solicitud, esta herramienta modela el coste acumulado de agentes multi-paso — incluyendo reintentos, sobrecarga de llamadas a herramientas y tokens de recuperación de memoria.

Los agentes de IA modernos no hacen una sola llamada a un LLM. Un agente de revisión de código podría llamar a un clasificador, luego a un analizador de código, después a un revisor y finalmente a un corrector — cada uno usando un modelo diferente optimizado para esa tarea. Un agente de soporte podría clasificar la intención, recuperar contexto, generar una respuesta y resumir la interacción. Cada paso suma al coste total.

Esta calculadora te permite definir cada paso de tu agente, seleccionar modelos por paso, configurar multiplicadores de sobrecarga y ver el coste total por ejecución, diario y mensual. Los presets para patrones comunes (RAG, agentes de código, bots de soporte) te ayudan a empezar rápidamente.

Cómo Usar Esta Herramienta

Modela el coste de tu agente en unos pocos pasos:

  1. Empieza con un preset (RAG Simple, Agente de Código o Agente de Soporte) o construye tu propio flujo de trabajo desde cero.
  2. Para cada paso, establece el nombre, selecciona el modelo y configura los tokens promedio de entrada/salida y las llamadas por ejecución.
  3. Usa las flechas de reorden para organizar los pasos en orden de ejecución. Añade o elimina pasos según sea necesario.
  4. Configura los multiplicadores de sobrecarga: la sobrecarga de llamadas a herramientas añade un porcentaje a los tokens (por el formato de function calling), la tasa de reintentos cuenta las llamadas fallidas que necesitan reintentarse, y los tokens de memoria/RAG añaden una cantidad fija por paso para la recuperación de contexto.
  5. Establece las ejecuciones esperadas por día para ver las proyecciones de coste diario y mensual.
  6. Revisa la tabla de desglose mostrando costes y porcentajes por paso. Copia el desglose o la configuración JSON para documentación.

Entendiendo los Multiplicadores de Coste de Agentes

El coste bruto de las llamadas a LLMs es solo el punto de partida. Los agentes en el mundo real tienen sobrecargas que multiplican el coste base:

Sobrecarga de Llamadas a Herramientas

Cuando un agente usa function calling o tool use, las definiciones y esquemas de las herramientas se incluyen en el prompt. Esto típicamente añade un 5-15% a los tokens de entrada. Herramientas complejas con esquemas detallados pueden añadir aún más. El valor predeterminado del 10% es un punto medio razonable para la mayoría de los agentes.

Tasa de Reintentos

Los agentes en producción encuentran fallos: límites de tasa, salidas malformadas, errores de validación. Una tasa de reintentos del 5% significa que 1 de cada 20 llamadas se reintenta, añadiendo efectivamente un 5% al coste total. Agentes de alta fiabilidad con parsing estricto de salida pueden ver tasas de reintentos del 10-20%.

Memoria y Recuperación RAG

Los agentes que usan retrieval-augmented generation (RAG) o memoria persistente inyectan contexto adicional en cada prompt. Una recuperación RAG típica añade 200-500 tokens de contexto por paso. Esto se modela como una adición fija a los tokens de entrada por paso en lugar de un porcentaje.

Estrategias de Optimización de Costes

Usa la calculadora para modelar estos enfoques de optimización:

  • Enrutamiento de modelos — Usa modelos económicos (GPT-5 Nano, Gemini Flash) para clasificación y enrutamiento, reservando modelos caros para los pasos de generación
  • Compresión de prompts — Reduce los tokens de entrada resumiendo el contexto antes de pasarlo a modelos costosos
  • Caché — Cachea respuestas comunes para evitar llamadas redundantes al LLM (no se modela aquí, pero reduce las ejecuciones efectivas por día)
  • Procesamiento por lotes — Algunos proveedores ofrecen descuentos del 50% para llamadas batch API con requisitos de latencia relajados
  • Control de longitud de salida — Establece max_tokens estrictos para evitar respuestas innecesariamente largas que inflen los costes

Preguntas Frecuentes

¿En qué se diferencia esto de la Calculadora de Costes de API de IA?

La Calculadora de Costes de API de IA calcula el precio de una sola llamada a un LLM (un modelo, un conjunto de tokens de entrada/salida). Esta calculadora de costes de agentes modela flujos de trabajo completos con múltiples pasos, cada uno potencialmente usando un modelo diferente, con multiplicadores de sobrecarga configurables. Usa la calculadora de API para precios de llamadas individuales, esta herramienta para flujos de trabajo de agentes multi-paso.

¿Los precios están actualizados?

La calculadora utiliza los mismos datos de precios que nuestra Calculadora de Costes de API de IA, que se actualiza regularmente. Los datos de precios incluyen todos los modelos activos de OpenAI, Anthropic, Google, Mistral, xAI, DeepSeek, Cohere, Qwen y otros proveedores principales. Siempre verifica las estimaciones de costes críticas en las páginas de precios de los proveedores antes de tomar decisiones presupuestarias.

¿Qué pasa si mi agente tiene pasos condicionales?

La calculadora modela un flujo lineal donde cada paso se ejecuta en cada ejecución. Si tu agente tiene ramas condicionales (ej: la escalación solo ocurre el 20% de las veces), puedes modelar el caso promedio ajustando las llamadas por ejecución. Configura los pasos condicionales con una fracción (ej: equivalente a 0,2 llamadas/ejecución ajustando los conteos de tokens proporcionalmente).

¿Cómo estimo los tokens de entrada y salida para cada paso?

Ejecuta tu agente varias veces y registra los conteos de tokens de las respuestas de la API. La mayoría de los proveedores devuelven el uso de tokens en los metadatos de la respuesta. Si estás planificando un nuevo agente, estima: prompts de clasificación cortos son 200-500 entrada, 50-100 salida; pasos de generación son 1000-3000 entrada, 500-2000 salida; resumen es 1000-2000 entrada, 200-500 salida.

¿Puedo guardar y compartir la configuración de mi agente?

Sí. Usa el botón Copiar Configuración JSON para exportar toda la configuración de tu agente (pasos, modelos, sobrecargas, ejecuciones/día) como JSON. Puedes compartirlo con tu equipo o guardarlo para referencia futura. El formato JSON es legible y puede usarse como punto de partida para seguimiento programático de costes.

Herramientas Relacionadas

Explora más herramientas para construir y optimizar tus agentes de IA:

Herramientas Relacionadas