Question 1

Esta ferramenta envia meus dados para algum servidor?

Accepted Answer

Não. Toda a validação acontece inteiramente no seu navegador usando JavaScript. Seus dados de treinamento nunca saem da sua máquina — sem chamadas de API, sem processamento em servidor, sem armazenamento de dados. Isso é especialmente importante para datasets de fine-tuning que frequentemente contêm exemplos proprietários ou sensíveis.

Question 2

Quão precisas são as estimativas de contagem de tokens?

Accepted Answer

O validador usa uma aproximação de ~4 caracteres por token para texto em inglês. Isso é preciso dentro de 10-20% para a maioria dos conteúdos. Para contagens exatas de tokens, use a biblioteca tiktoken da OpenAI ou o tokenizer da Anthropic após validar a estrutura do dataset aqui.

Question 3

O que a configuração de limite máximo de tokens faz?

Accepted Answer

Ela define o número máximo de tokens estimados por exemplo de treinamento. Exemplos que excedem esse limite são sinalizados com avisos (não erros) porque ainda podem ser válidos, mas podem ser truncados durante o treinamento ou rejeitados pela API. Limites comuns são 4.096 para fine-tuning do GPT-4o Mini e 8.192 para o GPT-4o.

Question 4

Posso usar esta ferramenta para formatos além de JSONL?

Accepted Answer

Atualmente, o validador suporta apenas o formato JSONL (JSON Lines), que é o formato padrão exigido pela OpenAI e Anthropic para fine-tuning. Cada linha deve ser um objeto JSON válido. CSV ou outros formatos precisam ser convertidos para JSONL primeiro.

Question 5

O que devo fazer com o relatório de validação?

Accepted Answer

Corrija todos os erros (JSON inválido, campos ausentes, roles incorretos) e revise os avisos (violações de limite de tokens). Use o botão Copiar Exemplos Válidos para exportar apenas as linhas limpas, depois revalide o dataset limpo. Busque ter zero erros antes de enviar para qualquer API de fine-tuning.

Validador de Datasets de Fine-Tuning

O que é um Validador de Dataset de Fine-Tuning?

Como Usar Esta Ferramenta

Formatos de Fine-Tuning Suportados

Formato OpenAI Chat

Formato OpenAI Completions (Legado)

Formato Anthropic

Entendendo os Custos de Fine-Tuning

Perguntas Frequentes

Ferramentas Relacionadas

Ferramentas Relacionadas

Calculadora de Custos de API de IA

Construtor de Mensagens de Conversa

Gerador de JSON Schema para IA