Calculadora de Custos de Agentes de IA

Modele o custo de workflows de agentes de IA multi-passo com seleção de modelo por passo e multiplicadores de overhead

~/agent-cost
Presets:
$0.02

Sobrecustos

+%
%
+tokens

Custo por execução

$0.02

Execuções/dia:

Diário: $1.07

Estimativa mensal

$32.05

PassoModeloChamadasCusto%
Step 1Claude 4.5 Opus1$0.02100.0%

O que é uma Calculadora de Custos de Agentes de IA?

Uma calculadora de custos de agentes de IA estima o custo operacional total de executar fluxos de trabalho de agentes de IA que fazem múltiplas chamadas LLM por execução. Diferente de uma calculadora simples de custos de API que calcula o preço de uma única requisição, esta ferramenta modela o custo composto de agentes multi-etapa — incluindo retentativas, overhead de tool calls e tokens de recuperação de memória.

Agentes de IA modernos não fazem apenas uma chamada LLM. Um agente de revisão de código pode chamar um classificador, depois um analisador de código, depois um revisor, depois um corretor — cada um usando um modelo diferente otimizado para aquela etapa. Um agente de suporte pode classificar a intenção, recuperar contexto, gerar uma resposta e resumir a interação. Cada etapa adiciona ao custo total.

Esta calculadora permite definir cada etapa do seu agente, selecionar modelos por etapa, configurar multiplicadores de overhead e ver o custo total por execução, diário e mensal. Presets para padrões comuns (RAG, agentes de código, bots de suporte) ajudam você a começar rapidamente.

Como Usar Esta Ferramenta

Modele o custo do seu agente em poucos passos:

  1. Comece com um preset (RAG Simples, Agente de Código ou Agente de Suporte) ou construa seu próprio fluxo de trabalho do zero.
  2. Para cada etapa, defina o nome, selecione o modelo e configure a média de tokens de entrada/saída e chamadas por execução.
  3. Use as setas de reordenação para organizar as etapas na ordem de execução. Adicione ou remova etapas conforme necessário.
  4. Configure os multiplicadores de overhead: overhead de tool call adiciona uma porcentagem aos tokens (para formatação de function calling), taxa de retentativa contabiliza chamadas falhas que precisam ser refeitas, e tokens de memória/RAG adicionam uma quantidade fixa por etapa para recuperação de contexto.
  5. Defina suas execuções esperadas por dia para ver projeções de custo diário e mensal.
  6. Revise a tabela de detalhamento mostrando custos e porcentagens por etapa. Copie o detalhamento ou a configuração JSON para documentação.

Entendendo os Multiplicadores de Custo de Agentes

O custo bruto das chamadas LLM é apenas o ponto de partida. Agentes no mundo real têm overhead que multiplica o custo base:

Overhead de Tool Call

Quando um agente usa function calling ou tool use, as definições e schemas das ferramentas são incluídos no prompt. Isso tipicamente adiciona 5-15% aos tokens de entrada. Ferramentas complexas com schemas detalhados podem adicionar ainda mais. O padrão de 10% é um meio-termo razoável para a maioria dos agentes.

Taxa de Retentativa

Agentes em produção encontram falhas: limites de taxa, saídas mal formatadas, erros de validação. Uma taxa de retentativa de 5% significa que 1 em 20 chamadas é retentada, efetivamente adicionando 5% ao custo total. Agentes de alta confiabilidade com parsing rigoroso de saída podem ter taxas de retentativa de 10-20%.

Memória e Recuperação RAG

Agentes que usam retrieval-augmented generation (RAG) ou memória persistente injetam contexto adicional em cada prompt. Uma recuperação RAG típica adiciona 200-500 tokens de contexto por etapa. Isso é modelado como uma adição fixa aos tokens de entrada por etapa, em vez de uma porcentagem.

Estratégias de Otimização de Custos

Use a calculadora para modelar estas abordagens de otimização:

  • Roteamento de modelos — Use modelos baratos (GPT-5 Nano, Gemini Flash) para classificação e roteamento, reservando modelos caros para etapas de geração
  • Compressão de prompts — Reduza tokens de entrada resumindo o contexto antes de passar para modelos caros
  • Cache — Armazene respostas comuns em cache para evitar chamadas LLM redundantes (não modelado aqui, mas reduz as execuções efetivas/dia)
  • Processamento em lote — Alguns provedores oferecem descontos de 50% para chamadas em batch API com requisitos relaxados de latência
  • Controle de comprimento de saída — Defina max_tokens rigoroso para evitar respostas inesperadamente longas que inflam custos

Perguntas Frequentes

Qual a diferença entre esta ferramenta e a Calculadora de Custos de API de IA?

A Calculadora de Custos de API de IA calcula o preço de uma única chamada LLM (um modelo, um conjunto de tokens de entrada/saída). Esta calculadora de custos de agentes modela fluxos de trabalho inteiros com múltiplas etapas, cada uma potencialmente usando um modelo diferente, com multiplicadores de overhead configuráveis. Use a calculadora de API para precificação de chamadas únicas, esta ferramenta para fluxos de trabalho de agentes multi-etapa.

Os valores de preços estão atualizados?

A calculadora usa os mesmos dados de preços da nossa Calculadora de Custos de API de IA, que é atualizada regularmente. Os dados de preços incluem todos os modelos ativos da OpenAI, Anthropic, Google, Mistral, xAI, DeepSeek, Cohere, Qwen e outros provedores principais. Sempre verifique estimativas críticas de custo nas páginas de preços dos provedores antes de tomar decisões de orçamento.

E se meu agente tiver etapas condicionais?

A calculadora modela um fluxo linear onde cada etapa é executada em toda execução. Se seu agente tem ramificações condicionais (ex: escalonamento acontece apenas 20% das vezes), você pode modelar o caso médio ajustando as chamadas por execução. Defina etapas condicionais como uma fração (ex: equivalente a 0,2 chamadas/execução ajustando as contagens de tokens proporcionalmente).

Como estimo tokens de entrada e saída para cada etapa?

Execute seu agente algumas vezes e registre as contagens de tokens das respostas da API. A maioria dos provedores retorna o uso de tokens nos metadados da resposta. Se você está planejando um novo agente, estime: prompts curtos de classificação são 200-500 entrada, 50-100 saída; etapas de geração são 1000-3000 entrada, 500-2000 saída; sumarização é 1000-2000 entrada, 200-500 saída.

Posso salvar e compartilhar a configuração do meu agente?

Sim. Use o botão Copiar Configuração JSON para exportar toda a configuração do seu agente (etapas, modelos, overheads, execuções/dia) como JSON. Você pode compartilhar com sua equipe ou salvar para referência futura. O formato JSON é legível por humanos e pode ser usado como ponto de partida para rastreamento programático de custos.

Ferramentas Relacionadas

Explore mais ferramentas para construir e otimizar seus agentes de IA:

Ferramentas Relacionadas