Question 1

Werden meine Daten irgendwohin hochgeladen?

Accepted Answer

Nein. Die gesamte Validierung findet ausschließlich in Ihrem Browser mittels JavaScript statt. Ihre Trainingsdaten verlassen nie Ihren Rechner — keine API-Aufrufe, keine Serververarbeitung, keine Datenspeicherung. Dies ist besonders wichtig für Fine-Tuning-Datensätze, die häufig proprietäre oder sensible Beispiele enthalten.

Question 2

Wie genau sind die Token-Schätzungen?

Accepted Answer

Der Validator verwendet eine Näherung von ca. 4 Zeichen pro Token für englischen Text. Diese ist für die meisten Inhalte auf 10–20 % genau. Für exakte Token-Zahlen verwenden Sie die tiktoken-Bibliothek von OpenAI oder den Tokenizer von Anthropic, nachdem Sie die Datensatzstruktur hier validiert haben.

Question 3

Was bewirkt die Einstellung für das maximale Token-Limit?

Accepted Answer

Sie legt die maximale Anzahl geschätzter Tokens pro Trainingsbeispiel fest. Beispiele, die dieses Limit überschreiten, werden mit Warnungen (nicht Fehlern) markiert, da sie möglicherweise noch gültig sind, aber während des Trainings abgeschnitten oder von der API abgelehnt werden könnten. Gängige Limits sind 4.096 für GPT-4o Mini und 8.192 für GPT-4o Fine-Tuning.

Question 4

Kann ich dieses Tool für andere Formate als JSONL verwenden?

Accepted Answer

Derzeit unterstützt der Validator ausschließlich das JSONL-Format (JSON Lines), welches das Standardformat ist, das von OpenAI und Anthropic für Fine-Tuning vorausgesetzt wird. Jede Zeile muss ein gültiges JSON-Objekt sein. CSV oder andere Formate müssen zunächst in JSONL konvertiert werden.

Question 5

Was sollte ich mit dem Validierungsbericht tun?

Accepted Answer

Beheben Sie alle Fehler (ungültiges JSON, fehlende Felder, falsche Rollen) und überprüfen Sie die Warnungen (Token-Limit-Überschreitungen). Verwenden Sie den Button "Gültige Beispiele kopieren", um nur die fehlerfreien Zeilen zu exportieren, und validieren Sie den bereinigten Datensatz anschließend erneut. Streben Sie null Fehler an, bevor Sie Daten an eine Fine-Tuning-API hochladen.

Fine-Tuning-Dataset-Validator

Was ist ein Fine-Tuning-Datensatz-Validator?

So verwenden Sie dieses Tool

Unterstützte Fine-Tuning-Formate

OpenAI Chat-Format

OpenAI Completions-Format (Legacy)

Anthropic-Format

Fine-Tuning-Kosten verstehen

Häufig gestellte Fragen

Verwandte Werkzeuge

Verwandte Werkzeuge

KI-API-Kostenrechner

Konversations-Nachrichten-Builder

JSON-Schema-Generator für KI