Question 1

Cet outil envoie-t-il mes données quelque part ?

Accepted Answer

Non. Toute la validation s'effectue entièrement dans votre navigateur en JavaScript. Vos données d'entraînement ne quittent jamais votre machine — aucun appel API, aucun traitement serveur, aucun stockage de données. C'est particulièrement important pour les datasets de fine-tuning qui contiennent souvent des exemples propriétaires ou sensibles.

Question 2

Quelle est la précision des estimations de tokens ?

Accepted Answer

Le validateur utilise une approximation d'environ 4 caractères par token pour le texte anglais. Cette estimation est précise à 10-20 % près pour la plupart des contenus. Pour des comptages exacts, utilisez la bibliothèque tiktoken d'OpenAI ou le tokenizer d'Anthropic après avoir validé la structure du dataset ici.

Question 3

À quoi sert le réglage de limite maximale de tokens ?

Accepted Answer

Il définit le nombre maximum estimé de tokens par exemple d'entraînement. Les exemples dépassant cette limite sont signalés par des avertissements (pas des erreurs), car ils peuvent être valides mais risquent d'être tronqués pendant l'entraînement ou rejetés par l'API. Les limites courantes sont 4 096 pour GPT-4o Mini et 8 192 pour le fine-tuning GPT-4o.

Question 4

Puis-je utiliser cet outil pour d'autres formats que JSONL ?

Accepted Answer

Actuellement, le validateur ne prend en charge que le format JSONL (JSON Lines), qui est le format standard requis par OpenAI et Anthropic pour le fine-tuning. Chaque ligne doit être un objet JSON valide. Les formats CSV ou autres doivent d'abord être convertis en JSONL.

Question 5

Que dois-je faire avec le rapport de validation ?

Accepted Answer

Corrigez toutes les erreurs (JSON invalide, champs manquants, rôles incorrects) et examinez les avertissements (dépassements de limite de tokens). Utilisez le bouton Copier les exemples valides pour exporter uniquement les lignes correctes, puis revalidez le dataset nettoyé. Visez zéro erreur avant d'envoyer vos données à une API de fine-tuning.

Validateur de datasets de fine-tuning

Qu'est-ce qu'un validateur de dataset de fine-tuning ?

Comment utiliser cet outil

Formats de fine-tuning supportés

Format OpenAI Chat

Format OpenAI Completions (Legacy)

Format Anthropic

Comprendre les coûts de fine-tuning

Questions Fréquentes

Outils associés

Outils associés

Calculateur de coûts d'API IA

Constructeur de messages de conversation

Générateur de JSON Schema pour l'IA