Question 1

機械学習トレーニングデータには JSONL と Parquet のどちらを使うべきですか？

Accepted Answer

ML プラットフォームによります。OpenAI、Anthropic など多くの LLM プロバイダーは、検証とストリーミングが容易なため、ファインチューニングのアップロードに JSONL を要求します。しかし、Spark や PyTorch 上のフィーチャーストアや大規模トレーニングパイプラインでは、データセット全体をスキャンせずに特定のフィーチャー列を読み取れるため Parquet が好まれます。多くのチームがトレーニングデータを JSONL で取り込み、保存のために Parquet に変換しています。

Question 2

Parquet は JSONL と比べてどれくらい小さくなりますか？

Accepted Answer

Parquet ファイルは、データによって同等の JSONL ファイルの 3〜10 倍小さくなるのが一般的です。削減は2つの要因から来ます：カラム圧縮が列内の類似性を活用（例えば、国コードの列は非常によく圧縮される）し、バイナリエンコーディングがフィールド名の繰り返しや数値のテキスト表現のオーバーヘッドを排除します。一般的な 4 GB の JSONL ファイルの場合、Parquet 相当は 0.4〜1.2 GB になると予想されます。

Question 3

Parquet のように JSONL ファイルに SQL でクエリできますか？

Accepted Answer

はい、DuckDB のようなツールで JSONL と Parquet の両方のファイルに SQL クエリを実行できます。違いはパフォーマンスです：DuckDB は Parquet のカラム型フォーマットを活用して列の剪定とプレディケートプッシュダウンを行い、分析クエリを桁違いに高速化できます。JSONL の場合、DuckDB はすべての行を JSON としてパースする必要があり、大きなファイルでは大幅に遅くなります。大規模な SQL クエリが必要な場合は、まず Parquet に変換することをお勧めします。

Question 4

JSONL と Parquet の間で変換は可能ですか？

Accepted Answer

はい。JSONL から Parquet への変換は、Python（pandas + PyArrow）、DuckDB、Apache Spark で簡単に行えます。JSONL ファイルを DataFrame に読み込み、Parquet として書き出すだけです。逆（Parquet から JSONL）も同様に簡単です：Parquet ファイルを読み込み、各行を JSON 行として書き出します。Parquet への変換には一貫したスキーマが必要なため、JSONL のスキーマの不整合は事前に解決する必要があります。

Question 5

Parquet は JSONL のようにネストされた半構造化データを扱えますか？

Accepted Answer

Parquet は、配列やネストされた構造体を表現できる definition level と repetition level のエンコーディングによりネストされたデータをサポートします。ただし、固定スキーマが必要なため、すべてのレコードが同じ構造に準拠する必要があります。異なるレコードがまったく異なるフィールドを持つ真の半構造化データには JSONL の方が柔軟です。安定したネストスキーマを持つデータなら Parquet で問題ありません。レコードごとにスキーマが異なる場合は JSONL が最適です。

Question 6

JSONL と Parquet の両方を扱うのに最適なツールは何ですか？

Accepted Answer

DuckDB は両フォーマットを扱う最も汎用的なツールで、設定なしで JSONL と Parquet ファイルに対して SQL クエリを実行できます。Python と pandas + PyArrow は両フォーマットの読み書きを行うデータパイプラインの標準です。Apache Spark は分散環境で両方を大規模に処理します。JSONL 専用では jq と当社のオンライン JSONL ビューアが迅速な確認に最適です。Parquet には parquet-tools と PyArrow CLI がメタデータの確認やスキーマ表示を提供します。

特徴	JSONL	Parquet
データレイアウト	行指向、テキストベース。各行が完全な JSON オブジェクト。	列指向、バイナリ。値は行グループ単位で列ごとに格納。
エンコーディング	UTF-8 プレーンテキスト。人間が読める、テキストエディタで編集可能。	辞書エンコーディング、RLE、ビットパッキングを使用したバイナリ。人間には読めない。
圧縮	外部圧縮（gzip、zstd）がオプション。フィールド名が毎行繰り返される。	組み込みのカラム圧縮（Snappy、Zstd、Gzip）。2〜10 倍小さいファイル。
クエリパフォーマンス	すべてのクエリでファイル全体をスキャンする必要がある。列の剪定やプレディケートプッシュダウンなし。	列の剪定とプレディケートプッシュダウンで不要なデータをスキップ。分析クエリでは桁違いに高速。
スキーマ	スキーマフリー。各行で異なるフィールドと型を持てる。柔軟だがエラーが起きやすい。	ファイルメタデータに埋め込まれた厳密な型付きスキーマ。読み取りと書き込み時に強制。
ストリーミング/追記	優秀。ファイルの末尾に新しい行を追加するだけ。リアルタイム取り込みに最適。	不向き。データ追加にはファイルの書き換えまたは新しいパーティションの作成が必要。
人間が読める	はい。cat、head、grep、jq、またはテキストエディタで確認可能。	いいえ。確認には専用ツール（parquet-tools、PyArrow、DuckDB）が必要。
エコシステム	ユニバーサル。JSON パーサーを持つすべてのプログラミング言語でサポート。	分析に特化。Spark、Hive、Presto、DuckDB、Snowflake、BigQuery と深く統合。

JSONL vs Parquet：最適なデータフォーマットの選び方

JSONL とは？

Parquet とは？

JSONL vs Parquet：並列比較

パフォーマンスベンチマーク

ファイルサイズ（圧縮）

フルテーブルスキャン

書き込み速度

単一列クエリ

JSONL vs Parquet の使い分け

ハイブリッドアーキテクチャ：JSONL で取り込み、Parquet で保存

1. JSONL として取り込み

2. 変換と検証

3. Parquet として保存

無料 JSONL ツールを試す

オンラインで JSONL ファイルを操作

よくある質問