KI-Agenten-Kostenrechner

Modellieren Sie die Kosten von mehrstufigen KI-Agenten-Workflows mit Modellauswahl pro Schritt und Overhead-Multiplikatoren

~/agent-cost
Vorlagen:
$0.02

Gemeinkosten

+%
%
+Tokens

Kosten pro Durchlauf

$0.02

Durchläufe/Tag:

Täglich: $1.07

Monatliche Schätzung

$32.05

SchrittModellAufrufeKosten%
Step 1Claude 4.5 Opus1$0.02100.0%

Was ist ein KI-Agenten-Kostenrechner?

Ein KI-Agenten-Kostenrechner schätzt die gesamten Betriebskosten für die Ausführung von KI-Agenten-Workflows, die pro Durchlauf mehrere LLM-Aufrufe durchführen. Im Gegensatz zu einem einfachen API-Kostenrechner, der eine einzelne Anfrage bepreist, modelliert dieses Tool die kumulierten Kosten von mehrstufigen Agenten — einschließlich Wiederholungsversuchen, Tool-Call-Overhead und Memory-Retrieval-Tokens.

Moderne KI-Agenten führen nicht nur einen einzigen LLM-Aufruf durch. Ein Code-Review-Agent könnte einen Klassifikator aufrufen, dann einen Code-Analysator, dann einen Reviewer und schließlich einen Fixer — jeder mit einem für diesen Schritt optimierten Modell. Ein Support-Agent könnte die Absicht klassifizieren, Kontext abrufen, eine Antwort generieren und die Interaktion zusammenfassen. Jeder Schritt erhöht die Gesamtkosten.

Dieser Rechner ermöglicht es Ihnen, jeden Schritt Ihres Agenten zu definieren, Modelle pro Schritt auszuwählen, Overhead-Multiplikatoren zu konfigurieren und die Gesamtkosten pro Durchlauf, täglich und monatlich einzusehen. Vorlagen für gängige Muster (RAG, Code-Agenten, Support-Bots) helfen Ihnen beim schnellen Einstieg.

So verwenden Sie dieses Tool

Modellieren Sie die Kosten Ihres Agenten in wenigen Schritten:

  1. Beginnen Sie mit einer Vorlage (Simple RAG, Code Agent oder Support Agent) oder erstellen Sie Ihren eigenen Workflow von Grund auf.
  2. Legen Sie für jeden Schritt den Namen fest, wählen Sie das Modell aus und konfigurieren Sie die durchschnittlichen Eingabe-/Ausgabe-Tokens und Aufrufe pro Durchlauf.
  3. Verwenden Sie die Pfeile zum Neuordnen, um die Schritte in der Ausführungsreihenfolge anzuordnen. Fügen Sie Schritte hinzu oder entfernen Sie sie nach Bedarf.
  4. Konfigurieren Sie die Overhead-Multiplikatoren: Tool-Call-Overhead fügt einen prozentualen Zuschlag zu den Tokens hinzu (für Function-Calling-Formatierung), die Wiederholungsrate berücksichtigt fehlgeschlagene Aufrufe, die wiederholt werden müssen, und Memory/RAG-Tokens fügen pro Schritt eine feste Menge für den Kontextabruf hinzu.
  5. Legen Sie die erwarteten Durchläufe pro Tag fest, um tägliche und monatliche Kostenprojektionen zu sehen.
  6. Überprüfen Sie die Aufschlüsselungstabelle mit den Kosten und Prozentsätzen pro Schritt. Kopieren Sie die Aufschlüsselung oder JSON-Konfiguration für die Dokumentation.

Agenten-Kostenmultiplikatoren verstehen

Die reinen Kosten der LLM-Aufrufe sind nur der Ausgangspunkt. Agenten im Produktiveinsatz haben Overhead, der die Basiskosten vervielfacht:

Tool-Call-Overhead

Wenn ein Agent Function Calling oder Tool Use verwendet, werden die Tool-Definitionen und Schemas in den Prompt einbezogen. Dies fügt typischerweise 5–15 % zu den Eingabe-Tokens hinzu. Komplexe Tools mit detaillierten Schemas können noch mehr hinzufügen. Der Standardwert von 10 % ist ein guter Mittelwert für die meisten Agenten.

Wiederholungsrate

Agenten im Produktiveinsatz stoßen auf Fehler: Rate-Limits, fehlerhafte Ausgaben, Validierungsfehler. Eine Wiederholungsrate von 5 % bedeutet, dass 1 von 20 Aufrufen wiederholt wird, was die Gesamtkosten effektiv um 5 % erhöht. Hochzuverlässige Agenten mit striktem Output-Parsing können Wiederholungsraten von 10–20 % aufweisen.

Memory und RAG-Retrieval

Agenten, die Retrieval-Augmented Generation (RAG) oder persistentes Memory verwenden, injizieren zusätzlichen Kontext in jeden Prompt. Ein typischer RAG-Abruf fügt pro Schritt 200–500 Tokens an Kontext hinzu. Dies wird als fester Zuschlag zu den Eingabe-Tokens pro Schritt modelliert, nicht als prozentualer Wert.

Strategien zur Kostenoptimierung

Nutzen Sie den Rechner, um diese Optimierungsansätze zu modellieren:

  • Modell-Routing — Günstige Modelle (GPT-5 Nano, Gemini Flash) für Klassifikation und Routing verwenden, teure Modelle für Generierungsschritte reservieren
  • Prompt-Komprimierung — Eingabe-Tokens reduzieren, indem Sie Kontext zusammenfassen, bevor er an teure Modelle übergeben wird
  • Caching — Häufige Antworten zwischenspeichern, um redundante LLM-Aufrufe zu vermeiden (hier nicht modelliert, reduziert aber die effektiven Durchläufe/Tag)
  • Batch-Verarbeitung — Einige Anbieter bieten 50 % Rabatt für Batch-API-Aufrufe mit gelockerten Latenzanforderungen
  • Ausgabelängenkontrolle — Striktes max_tokens setzen, um unerwartet lange Antworten zu vermeiden, die die Kosten in die Höhe treiben

Häufig gestellte Fragen

Wie unterscheidet sich dieses Tool vom KI-API-Kostenrechner?

Der KI-API-Kostenrechner bepreist einen einzelnen LLM-Aufruf (ein Modell, ein Satz Eingabe-/Ausgabe-Tokens). Dieser Agenten-Kostenrechner modelliert ganze Workflows mit mehreren Schritten, wobei jeder potenziell ein anderes Modell nutzt, mit konfigurierbaren Overhead-Multiplikatoren. Verwenden Sie den API-Rechner für Einzelaufruf-Preise, dieses Tool für mehrstufige Agenten-Workflows.

Sind die Preiswerte aktuell?

Der Rechner verwendet dieselben Preisdaten wie unser KI-API-Kostenrechner, die regelmäßig aktualisiert werden. Die Preisdaten umfassen alle aktiven Modelle von OpenAI, Anthropic, Google, Mistral, xAI, DeepSeek, Cohere, Qwen und anderen großen Anbietern. Überprüfen Sie kritische Kostenschätzungen stets anhand der Preisseiten der Anbieter, bevor Sie Budgetentscheidungen treffen.

Was ist, wenn mein Agent bedingte Schritte hat?

Der Rechner modelliert einen linearen Ablauf, bei dem jeder Schritt bei jedem Durchlauf ausgeführt wird. Wenn Ihr Agent bedingte Verzweigungen hat (z. B. Eskalation erfolgt nur in 20 % der Fälle), können Sie den Durchschnittsfall modellieren, indem Sie die Aufrufe-pro-Durchlauf anpassen. Setzen Sie bedingte Schritte auf einen Bruchteil (z. B. äquivalent zu 0,2 Aufrufen/Durchlauf durch proportionale Anpassung der Token-Mengen).

Wie schätze ich Eingabe- und Ausgabe-Tokens für jeden Schritt?

Führen Sie Ihren Agenten einige Male aus und protokollieren Sie die Token-Zahlen aus den API-Antworten. Die meisten Anbieter geben den Token-Verbrauch in den Antwort-Metadaten zurück. Wenn Sie einen neuen Agenten planen, schätzen Sie: Kurze Klassifikator-Prompts benötigen 200–500 Eingabe- und 50–100 Ausgabe-Tokens; Generierungsschritte benötigen 1.000–3.000 Eingabe- und 500–2.000 Ausgabe-Tokens; Zusammenfassungen benötigen 1.000–2.000 Eingabe- und 200–500 Ausgabe-Tokens.

Kann ich meine Agenten-Konfiguration speichern und teilen?

Ja. Verwenden Sie den Button \"JSON-Konfiguration kopieren\", um Ihre gesamte Agenten-Konfiguration (Schritte, Modelle, Overhead, Durchläufe/Tag) als JSON zu exportieren. Sie können dies mit Ihrem Team teilen oder für zukünftige Referenz speichern. Das JSON-Format ist menschenlesbar und kann als Ausgangspunkt für programmatisches Kosten-Tracking verwendet werden.

Verwandte Werkzeuge

Entdecken Sie weitere Werkzeuge zum Erstellen und Optimieren Ihrer KI-Agenten:

Verwandte Werkzeuge