Validador de Datasets de Fine-Tuning

Valide datasets JSONL para fine-tuning de LLMs com detecção de erros, contagem de tokens e estimativa de custos

~/finetune-validator

Cole um dataset JSONL acima para validá-lo para fine-tuning.

Suporta formatos OpenAI Chat, OpenAI Completions e Anthropic. Detecta erros, conta tokens e estima custos de fine-tuning.

O que é um Validador de Dataset de Fine-Tuning?

Um validador de dataset de fine-tuning verifica seus dados de treinamento em JSONL quanto a erros estruturais, campos ausentes e inconsistências de formato antes de enviá-los para a API de fine-tuning de um provedor de IA. Detectar esses problemas localmente evita execuções de treinamento falhas, custos de computação desperdiçados e horas depurando mensagens de erro crípticas da API.

O fine-tuning permite personalizar um modelo base com seus próprios exemplos — mas os dados de treinamento devem seguir um formato rigoroso. A OpenAI exige um array de messages com roles system, user e assistant. A Anthropic usa turnos alternados de human e assistant. Mesmo uma única linha mal formatada pode fazer com que todo o job de treinamento falhe.

Nosso validador gratuito detecta automaticamente o formato, valida cada linha individualmente, conta tokens por exemplo, estima custos de fine-tuning entre provedores e permite exportar apenas os exemplos válidos. Todo o processamento acontece no seu navegador — seus dados de treinamento nunca saem da sua máquina.

Como Usar Esta Ferramenta

Validar seu dataset de fine-tuning leva apenas alguns passos:

  1. Cole seus dados JSONL ou arraste e solte um arquivo .jsonl na área de entrada. Cada linha deve ser um objeto JSON válido.
  2. O validador detecta automaticamente o formato (OpenAI Chat, OpenAI Completions ou Anthropic) e valida cada linha contra o schema esperado.
  3. Defina o limite máximo de tokens por exemplo usando o dropdown — exemplos que excedem esse limite serão sinalizados com avisos.
  4. Revise as estatísticas resumidas: total de exemplos, contagem de válidos/inválidos, estatísticas de tokens (média, mín, máx, mediana) e custos estimados de fine-tuning.
  5. Verifique os resultados individuais por linha — erros mostram exatamente o que está errado (roles ausentes, conteúdo vazio), avisos sinalizam violações de limite de tokens.
  6. Use os botões Copiar para exportar exemplos válidos, estatísticas ou o relatório completo de validação.

Formatos de Fine-Tuning Suportados

O validador suporta os três formatos de dataset de fine-tuning mais comuns:

Formato OpenAI Chat

O formato padrão para fine-tuning de modelos GPT. Cada exemplo é um objeto JSON com um array de messages contendo objetos com campos role (system, user ou assistant) e content. Todo exemplo deve incluir pelo menos uma mensagem user e uma mensagem assistant.

Formato OpenAI Completions (Legado)

O formato mais antigo usa campos de string prompt e completion. Embora ainda seja suportado para alguns modelos, a OpenAI recomenda migrar para o formato chat em todos os novos jobs de fine-tuning.

Formato Anthropic

O formato de fine-tuning da Anthropic usa um array de messages com roles human e assistant em turnos alternados. O validador verifica se os roles se alternam corretamente e se nenhuma mensagem possui conteúdo vazio.

Entendendo os Custos de Fine-Tuning

Os custos de fine-tuning são baseados no número total de tokens de treinamento em todos os exemplos, multiplicado pelo preço de treinamento por token. O validador estima custos para todos os modelos que atualmente suportam fine-tuning, incluindo GPT-4o, GPT-4o Mini e Mistral Small.

As contagens de tokens mostradas são estimativas baseadas em uma proporção de aproximadamente 4 caracteres por token para texto em inglês. As contagens reais de tokens podem variar de 10 a 20% dependendo do vocabulário e conteúdo. Para contagens exatas, use o tokenizer do provedor após a validação.

Perguntas Frequentes

Esta ferramenta envia meus dados para algum servidor?

Não. Toda a validação acontece inteiramente no seu navegador usando JavaScript. Seus dados de treinamento nunca saem da sua máquina — sem chamadas de API, sem processamento em servidor, sem armazenamento de dados. Isso é especialmente importante para datasets de fine-tuning que frequentemente contêm exemplos proprietários ou sensíveis.

Quão precisas são as estimativas de contagem de tokens?

O validador usa uma aproximação de ~4 caracteres por token para texto em inglês. Isso é preciso dentro de 10-20% para a maioria dos conteúdos. Para contagens exatas de tokens, use a biblioteca tiktoken da OpenAI ou o tokenizer da Anthropic após validar a estrutura do dataset aqui.

O que a configuração de limite máximo de tokens faz?

Ela define o número máximo de tokens estimados por exemplo de treinamento. Exemplos que excedem esse limite são sinalizados com avisos (não erros) porque ainda podem ser válidos, mas podem ser truncados durante o treinamento ou rejeitados pela API. Limites comuns são 4.096 para fine-tuning do GPT-4o Mini e 8.192 para o GPT-4o.

Posso usar esta ferramenta para formatos além de JSONL?

Atualmente, o validador suporta apenas o formato JSONL (JSON Lines), que é o formato padrão exigido pela OpenAI e Anthropic para fine-tuning. Cada linha deve ser um objeto JSON válido. CSV ou outros formatos precisam ser convertidos para JSONL primeiro.

O que devo fazer com o relatório de validação?

Corrija todos os erros (JSON inválido, campos ausentes, roles incorretos) e revise os avisos (violações de limite de tokens). Use o botão Copiar Exemplos Válidos para exportar apenas as linhas limpas, depois revalide o dataset limpo. Busque ter zero erros antes de enviar para qualquer API de fine-tuning.

Ferramentas Relacionadas

Explore mais ferramentas para seu fluxo de desenvolvimento de IA:

Ferramentas Relacionadas