Question 1

¿Esta herramienta sube mis datos a algún sitio?

Accepted Answer

No. Toda la validación ocurre completamente en tu navegador usando JavaScript. Tus datos de entrenamiento nunca salen de tu máquina — sin llamadas a APIs, sin procesamiento en servidor, sin almacenamiento de datos. Esto es especialmente importante para datasets de fine-tuning que a menudo contienen ejemplos propietarios o sensibles.

Question 2

¿Qué tan precisas son las estimaciones de conteo de tokens?

Accepted Answer

El validador utiliza una aproximación de ~4 caracteres por token para texto en inglés. Esto es preciso dentro de un 10-20% para la mayoría del contenido. Para conteos exactos de tokens, usa la librería tiktoken de OpenAI o el tokenizador de Anthropic después de validar la estructura del dataset aquí.

Question 3

¿Qué hace la configuración de límite máximo de tokens?

Accepted Answer

Establece el número máximo de tokens estimados por ejemplo de entrenamiento. Los ejemplos que excedan este límite se marcan con advertencias (no errores) porque pueden seguir siendo válidos pero podrían ser truncados durante el entrenamiento o rechazados por la API. Los límites comunes son 4.096 para GPT-4o Mini y 8.192 para fine-tuning de GPT-4o.

Question 4

¿Puedo usar esto para formatos distintos a JSONL?

Accepted Answer

Actualmente, el validador solo soporta el formato JSONL (JSON Lines), que es el formato estándar requerido por OpenAI y Anthropic para fine-tuning. Cada línea debe ser un objeto JSON válido. CSV u otros formatos necesitan ser convertidos a JSONL primero.

Question 5

¿Qué debería hacer con el informe de validación?

Accepted Answer

Corrige todos los errores (JSON inválido, campos faltantes, roles incorrectos) y revisa las advertencias (violaciones de límite de tokens). Usa el botón de Copiar Ejemplos Válidos para exportar solo las líneas correctas, luego re-valida el dataset limpio. Apunta a cero errores antes de subir a cualquier API de fine-tuning.

Validador de Datasets de Fine-Tuning

¿Qué es un Validador de Datasets de Fine-Tuning?

Cómo Usar Esta Herramienta

Formatos de Fine-Tuning Compatibles

Formato OpenAI Chat

Formato OpenAI Completions (Legacy)

Formato Anthropic

Entendiendo los Costes de Fine-Tuning

Preguntas Frecuentes

Herramientas Relacionadas

Herramientas Relacionadas

Calculadora de Costes de API de IA

Constructor de Mensajes de Conversación

Generador de JSON Schema para IA