ファインチューニングデータセットバリデーター

LLMファインチューニング用のJSONLデータセットをエラー検出、トークンカウント、コスト見積もりで検証します

~/finetune-validator

上にJSONLデータセットを貼り付けて、ファインチューニング用に検証します。

OpenAI Chat、OpenAI Completions、Anthropicフォーマットに対応。エラー検出、トークンカウント、ファインチューニングコスト見積もり。

Fine-Tuningデータセットバリデーターとは?

Fine-Tuningデータセットバリデーターは、AIプロバイダーのFine-Tuning APIにアップロードする前に、JSONLトレーニングデータの構造エラー、欠落フィールド、フォーマットの不整合をチェックするツールです。これらの問題をローカルで検出することで、トレーニング実行の失敗、計算コストの浪費、不明瞭なAPIエラーメッセージのデバッグにかかる時間を節約できます。

Fine-Tuningを使用すると、独自のデータで基盤モデルをカスタマイズできますが、トレーニングデータは厳密なフォーマットに従う必要があります。OpenAIではsystem、user、assistantのロールを持つmessages配列が必要です。Anthropicではhumanとassistantの交互のターンを使用します。たった1行の不正なデータでも、トレーニングジョブ全体が失敗する原因となります。

この無料バリデーターは、フォーマットを自動検出し、各行を個別に検証し、サンプルごとのトークン数をカウントし、プロバイダー間のFine-Tuningコストを見積もり、有効なサンプルのみをエクスポートできます。すべての処理はブラウザ内で行われ、トレーニングデータがお使いのマシンから外部に送信されることは一切ありません。

このツールの使い方

Fine-Tuningデータセットの検証は、いくつかのステップで完了します:

  1. JSONLデータを入力エリアに貼り付けるか、.jsonlファイルをドラッグ&ドロップします。各行は有効なJSONオブジェクトである必要があります。
  2. バリデーターがフォーマット(OpenAI Chat、OpenAI Completions、またはAnthropic)を自動検出し、各行を期待されるスキーマに対して検証します。
  3. ドロップダウンを使用してサンプルあたりの最大トークン制限を設定します。この制限を超えるサンプルには警告が表示されます。
  4. サマリー統計を確認します:サンプル総数、有効/無効の件数、トークン統計(平均、最小、最大、中央値)、推定Fine-Tuningコスト。
  5. 個別の行の結果を確認します。エラーは具体的な問題(欠落ロール、空のコンテンツ)を表示し、警告はトークン制限違反を示します。
  6. コピーボタンを使用して、有効なサンプル、統計情報、または検証レポート全体をエクスポートします。

サポートされるFine-Tuningフォーマット

バリデーターは、最も一般的な3つのFine-Tuningデータセットフォーマットをサポートしています:

OpenAI Chatフォーマット

GPTモデルのFine-Tuningに使用される標準フォーマットです。各サンプルは、role(system、user、またはassistant)とcontentフィールドを持つオブジェクトのmessages配列を含むJSONオブジェクトです。すべてのサンプルには、少なくとも1つのuserメッセージと1つのassistantメッセージが必要です。

OpenAI Completionsフォーマット(レガシー)

旧フォーマットでは、promptとcompletionの文字列フィールドを使用します。一部のモデルではまだサポートされていますが、OpenAIはすべての新しいFine-Tuningジョブにはchatフォーマットへの移行を推奨しています。

Anthropicフォーマット

AnthropicのFine-Tuningフォーマットは、humanとassistantのロールが交互に出現するmessages配列を使用します。バリデーターは、ロールが正しく交互に配置されていること、メッセージのコンテンツが空でないことを確認します。

Fine-Tuningコストの理解

Fine-Tuningコストは、すべてのサンプルにわたるトレーニングトークンの総数に、トークンあたりのトレーニング価格を掛けて算出されます。バリデーターは、GPT-4o、GPT-4o Mini、Mistral Smallなど、現在Fine-Tuningをサポートしているすべてのモデルのコストを見積もります。

表示されるトークン数は、英語テキストの場合おおよそ4:1の文字対トークン比率に基づく推定値です。実際のトークン数は、語彙やコンテンツによって10〜20%変動する場合があります。正確なカウントについては、検証後にプロバイダーのトークナイザーをご利用ください。

よくある質問

このツールはデータをどこかにアップロードしますか?

いいえ。すべての検証はJavaScriptを使用してブラウザ内で完全に行われます。トレーニングデータがお使いのマシンから外部に送信されることは一切ありません — API呼び出し、サーバー処理、データ保存は行われません。これは、独自データや機密性の高いサンプルを含むことが多いFine-Tuningデータセットにとって特に重要です。

トークン数の推定はどの程度正確ですか?

バリデーターは、英語テキストに対して1トークンあたり約4文字の近似値を使用しています。ほとんどのコンテンツに対して10〜20%の精度で正確です。正確なトークン数については、ここでデータセット構造を検証した後、OpenAIのtiktokenライブラリまたはAnthropicのトークナイザーをご利用ください。

最大トークン制限の設定は何をしますか?

トレーニングサンプルあたりの推定トークン数の上限を設定します。この制限を超えるサンプルは警告(エラーではなく)としてフラグ付けされます。これは、まだ有効である可能性がありますが、トレーニング中に切り詰められたり、APIによって拒否される場合があるためです。一般的な制限は、GPT-4o Miniの4,096トークンやGPT-4o Fine-Tuningの8,192トークンです。

JSONL以外のフォーマットにも使用できますか?

現在、バリデーターはJSONL(JSON Lines)フォーマットのみをサポートしています。これは、OpenAIとAnthropicがFine-Tuningに必要とする標準フォーマットです。各行は有効なJSONオブジェクトである必要があります。CSVやその他のフォーマットは、事前にJSONLに変換する必要があります。

検証レポートをどのように活用すべきですか?

すべてのエラー(無効なJSON、欠落フィールド、不正なロール)を修正し、警告(トークン制限違反)を確認してください。「有効なサンプルをコピー」ボタンを使用して正常な行のみをエクスポートし、クリーンなデータセットを再検証します。Fine-Tuning APIにアップロードする前に、エラーがゼロになることを目指してください。

関連ツール

AI開発ワークフローに役立つその他のツールもご覧ください:

関連ツール