ファインチューニングデータセットバリデーター
LLMファインチューニング用のJSONLデータセットをエラー検出、トークンカウント、コスト見積もりで検証します
上にJSONLデータセットを貼り付けて、ファインチューニング用に検証します。
OpenAI Chat、OpenAI Completions、Anthropicフォーマットに対応。エラー検出、トークンカウント、ファインチューニングコスト見積もり。
Fine-Tuningデータセットバリデーターとは?
Fine-Tuningデータセットバリデーターは、AIプロバイダーのFine-Tuning APIにアップロードする前に、JSONLトレーニングデータの構造エラー、欠落フィールド、フォーマットの不整合をチェックするツールです。これらの問題をローカルで検出することで、トレーニング実行の失敗、計算コストの浪費、不明瞭なAPIエラーメッセージのデバッグにかかる時間を節約できます。
Fine-Tuningを使用すると、独自のデータで基盤モデルをカスタマイズできますが、トレーニングデータは厳密なフォーマットに従う必要があります。OpenAIではsystem、user、assistantのロールを持つmessages配列が必要です。Anthropicではhumanとassistantの交互のターンを使用します。たった1行の不正なデータでも、トレーニングジョブ全体が失敗する原因となります。
この無料バリデーターは、フォーマットを自動検出し、各行を個別に検証し、サンプルごとのトークン数をカウントし、プロバイダー間のFine-Tuningコストを見積もり、有効なサンプルのみをエクスポートできます。すべての処理はブラウザ内で行われ、トレーニングデータがお使いのマシンから外部に送信されることは一切ありません。
このツールの使い方
Fine-Tuningデータセットの検証は、いくつかのステップで完了します:
- JSONLデータを入力エリアに貼り付けるか、.jsonlファイルをドラッグ&ドロップします。各行は有効なJSONオブジェクトである必要があります。
- バリデーターがフォーマット(OpenAI Chat、OpenAI Completions、またはAnthropic)を自動検出し、各行を期待されるスキーマに対して検証します。
- ドロップダウンを使用してサンプルあたりの最大トークン制限を設定します。この制限を超えるサンプルには警告が表示されます。
- サマリー統計を確認します:サンプル総数、有効/無効の件数、トークン統計(平均、最小、最大、中央値)、推定Fine-Tuningコスト。
- 個別の行の結果を確認します。エラーは具体的な問題(欠落ロール、空のコンテンツ)を表示し、警告はトークン制限違反を示します。
- コピーボタンを使用して、有効なサンプル、統計情報、または検証レポート全体をエクスポートします。
サポートされるFine-Tuningフォーマット
バリデーターは、最も一般的な3つのFine-Tuningデータセットフォーマットをサポートしています:
OpenAI Chatフォーマット
GPTモデルのFine-Tuningに使用される標準フォーマットです。各サンプルは、role(system、user、またはassistant)とcontentフィールドを持つオブジェクトのmessages配列を含むJSONオブジェクトです。すべてのサンプルには、少なくとも1つのuserメッセージと1つのassistantメッセージが必要です。
OpenAI Completionsフォーマット(レガシー)
旧フォーマットでは、promptとcompletionの文字列フィールドを使用します。一部のモデルではまだサポートされていますが、OpenAIはすべての新しいFine-Tuningジョブにはchatフォーマットへの移行を推奨しています。
Anthropicフォーマット
AnthropicのFine-Tuningフォーマットは、humanとassistantのロールが交互に出現するmessages配列を使用します。バリデーターは、ロールが正しく交互に配置されていること、メッセージのコンテンツが空でないことを確認します。
Fine-Tuningコストの理解
Fine-Tuningコストは、すべてのサンプルにわたるトレーニングトークンの総数に、トークンあたりのトレーニング価格を掛けて算出されます。バリデーターは、GPT-4o、GPT-4o Mini、Mistral Smallなど、現在Fine-Tuningをサポートしているすべてのモデルのコストを見積もります。
表示されるトークン数は、英語テキストの場合おおよそ4:1の文字対トークン比率に基づく推定値です。実際のトークン数は、語彙やコンテンツによって10〜20%変動する場合があります。正確なカウントについては、検証後にプロバイダーのトークナイザーをご利用ください。
よくある質問
このツールはデータをどこかにアップロードしますか?
いいえ。すべての検証はJavaScriptを使用してブラウザ内で完全に行われます。トレーニングデータがお使いのマシンから外部に送信されることは一切ありません — API呼び出し、サーバー処理、データ保存は行われません。これは、独自データや機密性の高いサンプルを含むことが多いFine-Tuningデータセットにとって特に重要です。
トークン数の推定はどの程度正確ですか?
バリデーターは、英語テキストに対して1トークンあたり約4文字の近似値を使用しています。ほとんどのコンテンツに対して10〜20%の精度で正確です。正確なトークン数については、ここでデータセット構造を検証した後、OpenAIのtiktokenライブラリまたはAnthropicのトークナイザーをご利用ください。
最大トークン制限の設定は何をしますか?
トレーニングサンプルあたりの推定トークン数の上限を設定します。この制限を超えるサンプルは警告(エラーではなく)としてフラグ付けされます。これは、まだ有効である可能性がありますが、トレーニング中に切り詰められたり、APIによって拒否される場合があるためです。一般的な制限は、GPT-4o Miniの4,096トークンやGPT-4o Fine-Tuningの8,192トークンです。
JSONL以外のフォーマットにも使用できますか?
現在、バリデーターはJSONL(JSON Lines)フォーマットのみをサポートしています。これは、OpenAIとAnthropicがFine-Tuningに必要とする標準フォーマットです。各行は有効なJSONオブジェクトである必要があります。CSVやその他のフォーマットは、事前にJSONLに変換する必要があります。
検証レポートをどのように活用すべきですか?
すべてのエラー(無効なJSON、欠落フィールド、不正なロール)を修正し、警告(トークン制限違反)を確認してください。「有効なサンプルをコピー」ボタンを使用して正常な行のみをエクスポートし、クリーンなデータセットを再検証します。Fine-Tuning APIにアップロードする前に、エラーがゼロになることを目指してください。
関連ツール
AI開発ワークフローに役立つその他のツールもご覧ください:
- AI向けJSON Schema生成ツール — 構造化出力やFunction Calling用のJSON Schemaを生成
- AI APIコスト計算ツール — プロバイダー間のAPI料金を比較してFine-Tuningに最適なモデルを選択
- 会話メッセージビルダー — Fine-Tuningと同じフォーマットでチャットメッセージ配列を構築・テスト