OpenAI のファインチューニングではどのような JSONL フォーマットを使用しますか？

OpenAI は各行に「messages」配列を含む JSON オブジェクトがある JSONL を使用します。各メッセージには「role」（system、user、assistant）と「content」フィールドがあります。system メッセージは動作を設定し、user メッセージは入力、assistant メッセージは期待する出力です。

トレーニング例はいくつ必要ですか？

OpenAI はファインチューニングに最低 10 例を推奨していますが、50〜100 の高品質な例の方がはるかに良い結果が得られます。量よりも質が重要で、よく作られた多様な例がモデルの性能向上につながります。

ファインチューニングの最大ファイルサイズはいくらですか？

OpenAI は現在、最大 1 GB のファインチューニングファイルをサポートしています。ただし、実際の制限はトークン予算に依存します。各トレーニング例のトークン数が合計に加算され、処理されるトークン数に応じてコストが増加します。

Batch API でも同じ JSONL フォーマットを使えますか？

いいえ。Batch API は異なる JSONL フォーマットを使用します。各行には custom_id、method、url、body フィールドを含める必要があります。body には通常の API 呼び出しで使用するのと同じパラメータが入ります。

アップロード前に JSONL ファイルをどう検証しますか？

無料のオンライン JSONL バリデーターを使用してファイルを即座にチェックできます。各行の JSON 構文を検証し、行番号付きでエラーを報告します。OpenAI の CLI ツール openai tools fine_tunes.prepare_data も使用できます。

OpenAI JSONL フォーマットガイド

OpenAI のモデルファインチューニングと Batch API で使用される JSONL フォーマットについて必要な知識をすべて解説。フォーマット仕様、コード例、よくある落とし穴を含みます。

最終更新: 2026年2月

OpenAI JSONL フォーマットとは？

OpenAI は、ファインチューニングデータセットと Batch API リクエストの標準ファイル形式として JSONL（JSON Lines）を使用しています。ファイル内の各行は完全で独立した JSON オブジェクトであり、配列で囲んだり行間にカンマを入れたりする必要はありません。

この形式が選ばれた理由は、効率的なストリーミングと行単位の処理が可能だからです。各トレーニング例や API リクエストを独立して検証でき、データセット全体をメモリに読み込むことなくファイルを処理できます。

正確なフォーマット要件を理解することは非常に重要です。末尾のカンマやフィールドの欠落など、小さなフォーマットエラーでもファイル全体が拒否されます。

ファインチューニング JSONL フォーマット

チャットモデルのファインチューニング（GPT-4o、GPT-4o-mini、GPT-3.5 Turbo）では、各行に会話ターンを含む「messages」配列が必要です。

必須フォーマット

{"messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"What is the capital of France?"},{"role":"assistant","content":"The capital of France is Paris."}]}
{"messages":[{"role":"system","content":"You are a helpful assistant."},{"role":"user","content":"What is 2+2?"},{"role":"assistant","content":"2+2 equals 4."}]}

必須フィールド

messages — メッセージオブジェクトの配列（必須）
role — "system"、"user"、"assistant" のいずれか（必須）
content — メッセージのテキスト内容（必須）

system メッセージは任意ですが推奨されます。各会話には少なくとも 1 つの user メッセージと 1 つの assistant メッセージが必要です。assistant メッセージがモデルが学習する生成内容です。

Batch API JSONL フォーマット

Batch API は、各行がカスタム ID を持つ API リクエストである異なる JSONL フォーマットを使用します。

必須フォーマット

{"custom_id":"request-1","method":"POST","url":"/v1/chat/completions","body":{"model":"gpt-4o-mini","messages":[{"role":"user","content":"Hello, how are you?"}]}'}
{"custom_id":"request-2","method":"POST","url":"/v1/chat/completions","body":{"model":"gpt-4o-mini","messages":[{"role":"user","content":"What is the weather today?"}]}'}

必須フィールド

custom_id — 各リクエストの一意な識別子（必須）
method — HTTP メソッド、通常は "POST"（必須）
url — API エンドポイントパス（必須）
body — リクエストボディ、通常の API 呼び出しと同じ（必須）

フォーマット要件

JSONL ファイルが OpenAI に受け入れられるよう、以下のルールに従ってください：

各行は有効な JSON である必要があります — 構文エラーは許可されません
各行は JSON オブジェクトである必要があります（'{' で始まり '}' で終わる）
ファインチューニングファイルでは各行に「messages」配列を含める必要があります
各メッセージには「role」と「content」フィールドの両方が必要です
有効なロールは："system"、"user"、"assistant" です
ファイルは BOM（バイトオーダーマーク）なしの UTF-8 エンコーディングである必要があります
末尾のカンマ、コメント、行間の余分な空白は不可
空行は許可され、無視されます

よくある間違い

OpenAI JSONL ファイル作成時に最も頻繁に発生するエラーです：

JSONL の代わりに JSON 配列を使用

間違い：すべてのオブジェクトを [ ] で囲む。JSONL ファイルは配列で囲まず、1 行に 1 オブジェクトでなければなりません。

Wrong

['{'"messages":[...]'}', '{'"messages":[...]'}']

Correct

'{'"messages":[...]'}'
'{'"messages":[...]'}'

必須フィールドの欠落

すべてのメッセージには「role」と「content」の両方が必要です。どちらかを省略すると検証が失敗します。

Wrong

'{'"messages":['{'"role":"user"'}']'}'

Correct

'{'"messages":['{'"role":"user","content":"Hello"'}']'}'

JSON 内の末尾のカンマ

JSON では配列やオブジェクトの最後の要素の後にカンマを付けることは許可されていません。

Wrong

'{'"messages":['{'"role":"user","content":"Hi",'}']'}'

Correct

'{'"messages":['{'"role":"user","content":"Hi"'}']'}'

BOM 文字や不正なエンコーディング

ファイルを BOM なしの UTF-8 で保存してください。一部のテキストエディタは JSON の解析を壊す不可視の BOM 文字を追加します。

Wrong

\uFEFF'{'"messages":[...]'}'

Correct

'{'"messages":[...]'}'

コード例

プログラムで OpenAI JSONL ファイルを作成する方法：

Python — ファインチューニング JSONL の作成

import json

training_data = [
    {"messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is JSONL?"},
        {"role": "assistant", "content": "JSONL (JSON Lines) is a text format where each line is a valid JSON object."}
    ]},
    {"messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "How do I fine-tune a model?"},
        {"role": "assistant", "content": "Prepare a JSONL file with training examples, then use the OpenAI fine-tuning API."}
    ]},
]

with open("training.jsonl", "w", encoding="utf-8") as f:
    for entry in training_data:
        f.write(json.dumps(entry, ensure_ascii=False) + "\n")

print(f"Created training.jsonl with {len(training_data)} examples")

JavaScript — ファインチューニング JSONL の作成

const fs = require('fs');

const trainingData = [
  { messages: [
    { role: 'system', content: 'You are a helpful assistant.' },
    { role: 'user', content: 'What is JSONL?' },
    { role: 'assistant', content: 'JSONL (JSON Lines) is a text format where each line is a valid JSON object.' },
  ]},
  { messages: [
    { role: 'system', content: 'You are a helpful assistant.' },
    { role: 'user', content: 'How do I fine-tune a model?' },
    { role: 'assistant', content: 'Prepare a JSONL file with training examples, then use the OpenAI fine-tuning API.' },
  ]},
];

const jsonl = trainingData.map(d => JSON.stringify(d)).join('\n');
fs.writeFileSync('training.jsonl', jsonl + '\n', 'utf-8');

console.log(`Created training.jsonl with ${trainingData.length} examples`);

JSONL ファイルを検証する

OpenAI にアップロードする前に、JSONL ファイルを検証してフォーマットエラーを早期に発見しましょう。無料のオンラインバリデーターが各行の JSON 構文を即座にチェックします。

OpenAI JSONL ファイルを表示＆編集

無料のオンライン JSONL ビューアーを使用して、ファインチューニングデータセットや Batch API ファイルを確認。サイドバイサイド表示、シンタックスハイライト、リアルタイム検証。

OpenAI JSONL フォーマットガイド

OpenAI JSONL フォーマットとは？

ファインチューニング JSONL フォーマット

必須フィールド

Batch API JSONL フォーマット

必須フィールド

フォーマット要件

よくある間違い

JSONL の代わりに JSON 配列を使用

必須フィールドの欠落

JSON 内の末尾のカンマ

BOM 文字や不正なエンコーディング

コード例

JSONL ファイルを検証する

OpenAI JSONL ファイルを表示＆編集

よくある質問

OpenAI のファインチューニングではどのような JSONL フォーマットを使用しますか？

トレーニング例はいくつ必要ですか？

ファインチューニングの最大ファイルサイズはいくらですか？

Batch API でも同じ JSONL フォーマットを使えますか？

アップロード前に JSONL ファイルをどう検証しますか？