Fine-Tuning-Dataset-Validator

Validieren Sie JSONL-Datasets für LLM-Fine-Tuning mit Fehlererkennung, Token-Zählung und Kostenschätzung

~/finetune-validator

Fügen Sie oben ein JSONL-Dataset ein, um es für Fine-Tuning zu validieren.

Unterstützt OpenAI Chat, OpenAI Completions und Anthropic Formate. Erkennt Fehler, zählt Tokens und schätzt Fine-Tuning-Kosten.

Was ist ein Fine-Tuning-Datensatz-Validator?

Ein Fine-Tuning-Datensatz-Validator prüft Ihre JSONL-Trainingsdaten auf strukturelle Fehler, fehlende Felder und Formatinkonsistenzen, bevor Sie sie an die Fine-Tuning-API eines KI-Anbieters hochladen. Das frühzeitige Erkennen dieser Probleme erspart Ihnen fehlgeschlagene Trainingsläufe, verschwendete Rechenkosten und stundenlange Fehlersuche anhand kryptischer API-Fehlermeldungen.

Fine-Tuning ermöglicht die Anpassung eines Basismodells an Ihre eigenen Beispiele — aber die Trainingsdaten müssen einem strikten Format folgen. OpenAI erfordert ein messages-Array mit den Rollen system, user und assistant. Anthropic verwendet abwechselnde human- und assistant-Turns. Bereits eine einzige fehlerhafte Zeile kann den gesamten Trainingsauftrag zum Scheitern bringen.

Unser kostenloser Validator erkennt das Format automatisch, validiert jede Zeile einzeln, zählt Tokens pro Beispiel, schätzt Fine-Tuning-Kosten über verschiedene Anbieter hinweg und ermöglicht den Export nur der gültigen Beispiele. Die gesamte Verarbeitung findet in Ihrem Browser statt — Ihre Trainingsdaten verlassen nie Ihren Rechner.

So verwenden Sie dieses Tool

Die Validierung Ihres Fine-Tuning-Datensatzes erfordert nur wenige Schritte:

  1. Fügen Sie Ihre JSONL-Daten ein oder ziehen Sie eine .jsonl-Datei per Drag-and-Drop in den Eingabebereich. Jede Zeile sollte ein gültiges JSON-Objekt sein.
  2. Der Validator erkennt automatisch das Format (OpenAI Chat, OpenAI Completions oder Anthropic) und validiert jede Zeile gegen das erwartete Schema.
  3. Legen Sie das maximale Token-Limit pro Beispiel über das Dropdown-Menü fest — Beispiele, die dieses Limit überschreiten, werden mit Warnungen markiert.
  4. Überprüfen Sie die Zusammenfassungsstatistiken: Gesamtanzahl der Beispiele, gültige/ungültige Zähler, Token-Statistiken (Durchschnitt, Minimum, Maximum, Median) und geschätzte Fine-Tuning-Kosten.
  5. Prüfen Sie die Ergebnisse einzelner Zeilen — Fehler zeigen genau an, was falsch ist (fehlende Rollen, leere Inhalte), Warnungen weisen auf Token-Limit-Überschreitungen hin.
  6. Verwenden Sie die Kopieren-Buttons, um gültige Beispiele, Statistiken oder den vollständigen Validierungsbericht zu exportieren.

Unterstützte Fine-Tuning-Formate

Der Validator unterstützt die drei gängigsten Fine-Tuning-Datensatzformate:

OpenAI Chat-Format

Das Standardformat für das Fine-Tuning von GPT-Modellen. Jedes Beispiel ist ein JSON-Objekt mit einem messages-Array, das Objekte mit den Feldern role (system, user oder assistant) und content enthält. Jedes Beispiel muss mindestens eine user-Nachricht und eine assistant-Nachricht enthalten.

OpenAI Completions-Format (Legacy)

Das ältere Format verwendet die String-Felder prompt und completion. Obwohl es für einige Modelle noch unterstützt wird, empfiehlt OpenAI die Migration zum Chat-Format für alle neuen Fine-Tuning-Aufträge.

Anthropic-Format

Das Fine-Tuning-Format von Anthropic verwendet ein messages-Array mit abwechselnden human- und assistant-Rollen. Der Validator prüft, ob die Rollen korrekt alternieren und keine Nachrichten leere Inhalte haben.

Fine-Tuning-Kosten verstehen

Fine-Tuning-Kosten basieren auf der Gesamtzahl der Trainings-Tokens aller Beispiele, multipliziert mit dem Pro-Token-Trainingspreis. Der Validator schätzt die Kosten für alle Modelle, die derzeit Fine-Tuning unterstützen, einschließlich GPT-4o, GPT-4o Mini und Mistral Small.

Die angezeigten Token-Zahlen sind Schätzungen auf Basis eines Zeichen-zu-Token-Verhältnisses von ungefähr 4:1 für englischen Text. Die tatsächlichen Token-Zahlen können je nach Wortschatz und Inhalt um 10–20 % abweichen. Für exakte Zählungen verwenden Sie nach der Validierung den Tokenizer des jeweiligen Anbieters.

Häufig gestellte Fragen

Werden meine Daten irgendwohin hochgeladen?

Nein. Die gesamte Validierung findet ausschließlich in Ihrem Browser mittels JavaScript statt. Ihre Trainingsdaten verlassen nie Ihren Rechner — keine API-Aufrufe, keine Serververarbeitung, keine Datenspeicherung. Dies ist besonders wichtig für Fine-Tuning-Datensätze, die häufig proprietäre oder sensible Beispiele enthalten.

Wie genau sind die Token-Schätzungen?

Der Validator verwendet eine Näherung von ca. 4 Zeichen pro Token für englischen Text. Diese ist für die meisten Inhalte auf 10–20 % genau. Für exakte Token-Zahlen verwenden Sie die tiktoken-Bibliothek von OpenAI oder den Tokenizer von Anthropic, nachdem Sie die Datensatzstruktur hier validiert haben.

Was bewirkt die Einstellung für das maximale Token-Limit?

Sie legt die maximale Anzahl geschätzter Tokens pro Trainingsbeispiel fest. Beispiele, die dieses Limit überschreiten, werden mit Warnungen (nicht Fehlern) markiert, da sie möglicherweise noch gültig sind, aber während des Trainings abgeschnitten oder von der API abgelehnt werden könnten. Gängige Limits sind 4.096 für GPT-4o Mini und 8.192 für GPT-4o Fine-Tuning.

Kann ich dieses Tool für andere Formate als JSONL verwenden?

Derzeit unterstützt der Validator ausschließlich das JSONL-Format (JSON Lines), welches das Standardformat ist, das von OpenAI und Anthropic für Fine-Tuning vorausgesetzt wird. Jede Zeile muss ein gültiges JSON-Objekt sein. CSV oder andere Formate müssen zunächst in JSONL konvertiert werden.

Was sollte ich mit dem Validierungsbericht tun?

Beheben Sie alle Fehler (ungültiges JSON, fehlende Felder, falsche Rollen) und überprüfen Sie die Warnungen (Token-Limit-Überschreitungen). Verwenden Sie den Button "Gültige Beispiele kopieren", um nur die fehlerfreien Zeilen zu exportieren, und validieren Sie den bereinigten Datensatz anschließend erneut. Streben Sie null Fehler an, bevor Sie Daten an eine Fine-Tuning-API hochladen.

Verwandte Werkzeuge

Entdecken Sie weitere Werkzeuge für Ihren KI-Entwicklungsworkflow:

Verwandte Werkzeuge