Validateur de datasets de fine-tuning
Validez des datasets JSONL pour le fine-tuning de LLMs avec détection d'erreurs, comptage de tokens et estimation des coûts
Collez un dataset JSONL ci-dessus pour le valider pour le fine-tuning.
Prend en charge les formats OpenAI Chat, OpenAI Completions et Anthropic. Détecte les erreurs, compte les tokens et estime les coûts de fine-tuning.
Qu'est-ce qu'un validateur de dataset de fine-tuning ?
Un validateur de dataset de fine-tuning vérifie vos données d'entraînement JSONL pour détecter les erreurs structurelles, les champs manquants et les incohérences de format avant que vous ne les envoyiez à l'API de fine-tuning d'un fournisseur d'IA. Détecter ces problèmes localement vous évite des entraînements échoués, des coûts de calcul gaspillés et des heures de débogage de messages d'erreur cryptiques.
Le fine-tuning vous permet de personnaliser un modèle de base avec vos propres exemples — mais les données d'entraînement doivent suivre un format strict. OpenAI exige un tableau messages avec les rôles system, user et assistant. Anthropic utilise des tours alternés human et assistant. Même une seule ligne malformée peut faire échouer l'intégralité du job d'entraînement.
Notre validateur gratuit détecte automatiquement le format, valide chaque ligne individuellement, compte les tokens par exemple, estime les coûts de fine-tuning pour différents fournisseurs et vous permet d'exporter uniquement les exemples valides. Tout le traitement s'effectue dans votre navigateur — vos données d'entraînement ne quittent jamais votre machine.
Comment utiliser cet outil
Valider votre dataset de fine-tuning ne prend que quelques étapes :
- Collez vos données JSONL ou glissez-déposez un fichier .jsonl dans la zone de saisie. Chaque ligne doit être un objet JSON valide.
- Le validateur détecte automatiquement le format (OpenAI Chat, OpenAI Completions ou Anthropic) et valide chaque ligne selon le schéma attendu.
- Définissez la limite maximale de tokens par exemple via le menu déroulant — les exemples dépassant cette limite seront signalés par des avertissements.
- Consultez les statistiques récapitulatives : nombre total d'exemples, comptages valides/invalides, statistiques de tokens (moyenne, min, max, médiane) et coûts estimés de fine-tuning.
- Vérifiez les résultats ligne par ligne — les erreurs indiquent exactement le problème (rôles manquants, contenu vide), les avertissements signalent les dépassements de limite de tokens.
- Utilisez les boutons Copier pour exporter les exemples valides, les statistiques ou le rapport de validation complet.
Formats de fine-tuning supportés
Le validateur prend en charge les trois formats de dataset de fine-tuning les plus courants :
Format OpenAI Chat
Le format standard pour le fine-tuning des modèles GPT. Chaque exemple est un objet JSON avec un tableau messages contenant des objets avec les champs role (system, user ou assistant) et content. Chaque exemple doit inclure au minimum un message user et un message assistant.
Format OpenAI Completions (Legacy)
L'ancien format utilise les champs texte prompt et completion. Bien qu'encore supporté pour certains modèles, OpenAI recommande de migrer vers le format chat pour tous les nouveaux jobs de fine-tuning.
Format Anthropic
Le format de fine-tuning d'Anthropic utilise un tableau messages avec les rôles human et assistant en tours alternés. Le validateur vérifie que les rôles alternent correctement et qu'aucun message n'a un contenu vide.
Comprendre les coûts de fine-tuning
Les coûts de fine-tuning sont basés sur le nombre total de tokens d'entraînement dans tous les exemples, multiplié par le prix d'entraînement par token. Le validateur estime les coûts pour tous les modèles supportant actuellement le fine-tuning, notamment GPT-4o, GPT-4o Mini et Mistral Small.
Les comptages de tokens affichés sont des estimations basées sur un ratio caractère/token d'environ 4:1 pour le texte anglais. Les comptages réels peuvent varier de 10 à 20 % selon le vocabulaire et le contenu. Pour des comptages exacts, utilisez le tokenizer du fournisseur après la validation.
Questions Fréquentes
Cet outil envoie-t-il mes données quelque part ?
Non. Toute la validation s'effectue entièrement dans votre navigateur en JavaScript. Vos données d'entraînement ne quittent jamais votre machine — aucun appel API, aucun traitement serveur, aucun stockage de données. C'est particulièrement important pour les datasets de fine-tuning qui contiennent souvent des exemples propriétaires ou sensibles.
Quelle est la précision des estimations de tokens ?
Le validateur utilise une approximation d'environ 4 caractères par token pour le texte anglais. Cette estimation est précise à 10-20 % près pour la plupart des contenus. Pour des comptages exacts, utilisez la bibliothèque tiktoken d'OpenAI ou le tokenizer d'Anthropic après avoir validé la structure du dataset ici.
À quoi sert le réglage de limite maximale de tokens ?
Il définit le nombre maximum estimé de tokens par exemple d'entraînement. Les exemples dépassant cette limite sont signalés par des avertissements (pas des erreurs), car ils peuvent être valides mais risquent d'être tronqués pendant l'entraînement ou rejetés par l'API. Les limites courantes sont 4 096 pour GPT-4o Mini et 8 192 pour le fine-tuning GPT-4o.
Puis-je utiliser cet outil pour d'autres formats que JSONL ?
Actuellement, le validateur ne prend en charge que le format JSONL (JSON Lines), qui est le format standard requis par OpenAI et Anthropic pour le fine-tuning. Chaque ligne doit être un objet JSON valide. Les formats CSV ou autres doivent d'abord être convertis en JSONL.
Que dois-je faire avec le rapport de validation ?
Corrigez toutes les erreurs (JSON invalide, champs manquants, rôles incorrects) et examinez les avertissements (dépassements de limite de tokens). Utilisez le bouton Copier les exemples valides pour exporter uniquement les lignes correctes, puis revalidez le dataset nettoyé. Visez zéro erreur avant d'envoyer vos données à une API de fine-tuning.
Outils associés
Découvrez d'autres outils pour votre workflow de développement IA :
- Générateur de schémas JSON pour l'IA — Générez des schémas JSON pour les sorties structurées et l'appel de fonctions
- Calculateur de coûts d'API IA — Comparez les tarifs API entre fournisseurs pour choisir le meilleur modèle de fine-tuning
- Constructeur de messages de conversation — Construisez et testez des tableaux de messages chat dans le même format utilisé pour le fine-tuning
Outils associés
Calculateur de coûts d'API IA
Calculez et comparez les coûts entre les fournisseurs IA, dont OpenAI, Anthropic, Google, Mistral AI, xAI et bien d'autres
Constructeur de messages de conversation
Construisez et testez des tableaux de messages pour le chat completion avec un éditeur visuel basé sur les rôles
Générateur de JSON Schema pour l'IA
Générez des schemas JSON à partir de données d'exemple, optimisés pour le function calling IA et les sorties structurées