Question 1

このツールはデータをどこかにアップロードしますか？

Accepted Answer

いいえ。すべての検証はJavaScriptを使用してブラウザ内で完全に行われます。トレーニングデータがお使いのマシンから外部に送信されることは一切ありません — API呼び出し、サーバー処理、データ保存は行われません。これは、独自データや機密性の高いサンプルを含むことが多いFine-Tuningデータセットにとって特に重要です。

Question 2

トークン数の推定はどの程度正確ですか？

Accepted Answer

バリデーターは、英語テキストに対して1トークンあたり約4文字の近似値を使用しています。ほとんどのコンテンツに対して10〜20%の精度で正確です。正確なトークン数については、ここでデータセット構造を検証した後、OpenAIのtiktokenライブラリまたはAnthropicのトークナイザーをご利用ください。

Question 3

最大トークン制限の設定は何をしますか？

Accepted Answer

トレーニングサンプルあたりの推定トークン数の上限を設定します。この制限を超えるサンプルは警告（エラーではなく）としてフラグ付けされます。これは、まだ有効である可能性がありますが、トレーニング中に切り詰められたり、APIによって拒否される場合があるためです。一般的な制限は、GPT-4o Miniの4,096トークンやGPT-4o Fine-Tuningの8,192トークンです。

Question 4

JSONL以外のフォーマットにも使用できますか？

Accepted Answer

現在、バリデーターはJSONL（JSON Lines）フォーマットのみをサポートしています。これは、OpenAIとAnthropicがFine-Tuningに必要とする標準フォーマットです。各行は有効なJSONオブジェクトである必要があります。CSVやその他のフォーマットは、事前にJSONLに変換する必要があります。

Question 5

検証レポートをどのように活用すべきですか？

Accepted Answer

すべてのエラー（無効なJSON、欠落フィールド、不正なロール）を修正し、警告（トークン制限違反）を確認してください。「有効なサンプルをコピー」ボタンを使用して正常な行のみをエクスポートし、クリーンなデータセットを再検証します。Fine-Tuning APIにアップロードする前に、エラーがゼロになることを目指してください。

ファインチューニングデータセットバリデーター

Fine-Tuningデータセットバリデーターとは？

このツールの使い方

サポートされるFine-Tuningフォーマット

OpenAI Chatフォーマット

OpenAI Completionsフォーマット（レガシー）

Anthropicフォーマット

Fine-Tuningコストの理解

よくある質問

関連ツール

関連ツール

AI APIコスト計算ツール

会話メッセージビルダー

AI向けJSONスキーマジェネレーター