Validador de Datasets de Fine-Tuning
Valide datasets JSONL para fine-tuning de LLMs com detecção de erros, contagem de tokens e estimativa de custos
Cole um dataset JSONL acima para validá-lo para fine-tuning.
Suporta formatos OpenAI Chat, OpenAI Completions e Anthropic. Detecta erros, conta tokens e estima custos de fine-tuning.
O que é um Validador de Dataset de Fine-Tuning?
Um validador de dataset de fine-tuning verifica seus dados de treinamento em JSONL quanto a erros estruturais, campos ausentes e inconsistências de formato antes de enviá-los para a API de fine-tuning de um provedor de IA. Detectar esses problemas localmente evita execuções de treinamento falhas, custos de computação desperdiçados e horas depurando mensagens de erro crípticas da API.
O fine-tuning permite personalizar um modelo base com seus próprios exemplos — mas os dados de treinamento devem seguir um formato rigoroso. A OpenAI exige um array de messages com roles system, user e assistant. A Anthropic usa turnos alternados de human e assistant. Mesmo uma única linha mal formatada pode fazer com que todo o job de treinamento falhe.
Nosso validador gratuito detecta automaticamente o formato, valida cada linha individualmente, conta tokens por exemplo, estima custos de fine-tuning entre provedores e permite exportar apenas os exemplos válidos. Todo o processamento acontece no seu navegador — seus dados de treinamento nunca saem da sua máquina.
Como Usar Esta Ferramenta
Validar seu dataset de fine-tuning leva apenas alguns passos:
- Cole seus dados JSONL ou arraste e solte um arquivo .jsonl na área de entrada. Cada linha deve ser um objeto JSON válido.
- O validador detecta automaticamente o formato (OpenAI Chat, OpenAI Completions ou Anthropic) e valida cada linha contra o schema esperado.
- Defina o limite máximo de tokens por exemplo usando o dropdown — exemplos que excedem esse limite serão sinalizados com avisos.
- Revise as estatísticas resumidas: total de exemplos, contagem de válidos/inválidos, estatísticas de tokens (média, mín, máx, mediana) e custos estimados de fine-tuning.
- Verifique os resultados individuais por linha — erros mostram exatamente o que está errado (roles ausentes, conteúdo vazio), avisos sinalizam violações de limite de tokens.
- Use os botões Copiar para exportar exemplos válidos, estatísticas ou o relatório completo de validação.
Formatos de Fine-Tuning Suportados
O validador suporta os três formatos de dataset de fine-tuning mais comuns:
Formato OpenAI Chat
O formato padrão para fine-tuning de modelos GPT. Cada exemplo é um objeto JSON com um array de messages contendo objetos com campos role (system, user ou assistant) e content. Todo exemplo deve incluir pelo menos uma mensagem user e uma mensagem assistant.
Formato OpenAI Completions (Legado)
O formato mais antigo usa campos de string prompt e completion. Embora ainda seja suportado para alguns modelos, a OpenAI recomenda migrar para o formato chat em todos os novos jobs de fine-tuning.
Formato Anthropic
O formato de fine-tuning da Anthropic usa um array de messages com roles human e assistant em turnos alternados. O validador verifica se os roles se alternam corretamente e se nenhuma mensagem possui conteúdo vazio.
Entendendo os Custos de Fine-Tuning
Os custos de fine-tuning são baseados no número total de tokens de treinamento em todos os exemplos, multiplicado pelo preço de treinamento por token. O validador estima custos para todos os modelos que atualmente suportam fine-tuning, incluindo GPT-4o, GPT-4o Mini e Mistral Small.
As contagens de tokens mostradas são estimativas baseadas em uma proporção de aproximadamente 4 caracteres por token para texto em inglês. As contagens reais de tokens podem variar de 10 a 20% dependendo do vocabulário e conteúdo. Para contagens exatas, use o tokenizer do provedor após a validação.
Perguntas Frequentes
Esta ferramenta envia meus dados para algum servidor?
Não. Toda a validação acontece inteiramente no seu navegador usando JavaScript. Seus dados de treinamento nunca saem da sua máquina — sem chamadas de API, sem processamento em servidor, sem armazenamento de dados. Isso é especialmente importante para datasets de fine-tuning que frequentemente contêm exemplos proprietários ou sensíveis.
Quão precisas são as estimativas de contagem de tokens?
O validador usa uma aproximação de ~4 caracteres por token para texto em inglês. Isso é preciso dentro de 10-20% para a maioria dos conteúdos. Para contagens exatas de tokens, use a biblioteca tiktoken da OpenAI ou o tokenizer da Anthropic após validar a estrutura do dataset aqui.
O que a configuração de limite máximo de tokens faz?
Ela define o número máximo de tokens estimados por exemplo de treinamento. Exemplos que excedem esse limite são sinalizados com avisos (não erros) porque ainda podem ser válidos, mas podem ser truncados durante o treinamento ou rejeitados pela API. Limites comuns são 4.096 para fine-tuning do GPT-4o Mini e 8.192 para o GPT-4o.
Posso usar esta ferramenta para formatos além de JSONL?
Atualmente, o validador suporta apenas o formato JSONL (JSON Lines), que é o formato padrão exigido pela OpenAI e Anthropic para fine-tuning. Cada linha deve ser um objeto JSON válido. CSV ou outros formatos precisam ser convertidos para JSONL primeiro.
O que devo fazer com o relatório de validação?
Corrija todos os erros (JSON inválido, campos ausentes, roles incorretos) e revise os avisos (violações de limite de tokens). Use o botão Copiar Exemplos Válidos para exportar apenas as linhas limpas, depois revalide o dataset limpo. Busque ter zero erros antes de enviar para qualquer API de fine-tuning.
Ferramentas Relacionadas
Explore mais ferramentas para seu fluxo de desenvolvimento de IA:
- Gerador de JSON Schema para IA — Gere JSON schemas para saídas estruturadas e function calling
- Calculadora de Custos de API de IA — Compare preços de API entre provedores para escolher o melhor modelo para fine-tuning
- Construtor de Mensagens de Conversa — Construa e teste arrays de mensagens de chat no mesmo formato usado para fine-tuning
Ferramentas Relacionadas
Calculadora de Custos de API de IA
Calcule e compare custos entre provedores de IA, incluindo OpenAI, Anthropic, Google, Mistral AI, xAI e mais
Construtor de Mensagens de Conversa
Construa e teste arrays de mensagens de chat completion com edição visual baseada em papéis
Gerador de JSON Schema para IA
Gere JSON schemas a partir de dados de exemplo, otimizados para function calling de IA e saídas estruturadas