Question 1

机器学习训练数据应该用 JSONL 还是 Parquet？

Accepted Answer

这取决于 ML 平台。OpenAI、Anthropic 和许多 LLM 提供商要求 JSONL 用于微调上传，因为它易于验证和流式处理。然而，对于 Spark 或 PyTorch 上的特征存储和大规模训练管道，Parquet 是首选，因为它允许读取特定特征列而无需扫描整个数据集。许多团队以 JSONL 格式摄入训练数据，然后转换为 Parquet 进行存储。

Question 2

Parquet 比 JSONL 小多少？

Accepted Answer

Parquet 文件通常比等效的 JSONL 文件小 3-10 倍，具体取决于数据。节省来自两个方面：列式压缩利用列内的相似性（例如，国家代码列压缩效果极好），二进制编码消除了重复字段名和使用文本表示数字的开销。对于典型的 4 GB JSONL 文件，预计 Parquet 等效文件为 0.4-1.2 GB。

Question 3

可以像 Parquet 一样用 SQL 查询 JSONL 文件吗？

Accepted Answer

可以，DuckDB 等工具可以用 SQL 查询 JSONL 和 Parquet 文件。区别在于性能：DuckDB 可以利用 Parquet 的列式格式进行列裁剪和谓词下推，使分析查询快数个数量级。对于 JSONL，DuckDB 必须将每行作为 JSON 解析，对于大文件这要慢得多。如果需要大规模 SQL 查询，建议先转换为 Parquet。

Question 4

可以在 JSONL 和 Parquet 之间转换吗？

Accepted Answer

可以。使用 Python（pandas + PyArrow）、DuckDB 或 Apache Spark 从 JSONL 转换为 Parquet 非常简单。将 JSONL 文件读入 DataFrame，然后输出为 Parquet。反向转换（Parquet 到 JSONL）也很简单：读取 Parquet 文件并将每行写为一行 JSON。请注意，转换为 Parquet 需要一致的 Schema，因此必须先解决 JSONL 中的 Schema 不一致问题。

Question 5

Parquet 能像 JSONL 一样处理嵌套或半结构化数据吗？

Accepted Answer

Parquet 通过其定义和重复级别编码支持嵌套数据，可以表示数组和嵌套 struct。但是，它需要固定的 Schema，因此每条记录必须符合相同的结构。JSONL 对于不同记录可以有完全不同字段的真正半结构化数据更灵活。如果您的数据有稳定的嵌套 Schema，Parquet 处理得很好。如果每条记录的 Schema 不同，JSONL 是更好的选择。

Question 6

同时处理 JSONL 和 Parquet 的最佳工具有哪些？

Accepted Answer

DuckDB 是处理两种格式最通用的工具，可以零配置地对 JSONL 和 Parquet 文件进行 SQL 查询。Python 配合 pandas 和 PyArrow 是读写两种格式的数据管道标准方案。Apache Spark 在分布式环境中大规模处理两种格式。具体到 JSONL，jq 和我们的在线 JSONL 查看器非常适合快速检查。对于 Parquet，parquet-tools 和 PyArrow CLI 提供元数据检查和 Schema 查看功能。

特性	JSONL	Parquet
数据布局	面向行，基于文本。每行是一个完整的 JSON 对象。	面向列，二进制格式。值按列存储，带有行组。
编码方式	UTF-8 纯文本。人类可读，可在任何文本编辑器中编辑。	二进制格式，支持字典、RLE 和位打包编码。不可人类阅读。
压缩	可选的外部压缩（gzip、zstd）。字段名在每行重复。	内置列式压缩（Snappy、Zstd、Gzip）。文件小 2-10 倍。
查询性能	任何查询都必须扫描整个文件。不支持列裁剪或谓词下推。	列裁剪和谓词下推可跳过无关数据。分析查询快数个数量级。
Schema	无 Schema。每行可以有不同的字段和类型。灵活但容易出错。	严格的类型化 Schema 嵌入文件元数据。在读写时强制执行。
流式处理 / 追加	优秀。在文件末尾追加新行即可。非常适合实时数据摄入。	较差。添加数据需要重写或创建新的文件分区。
人类可读	是。可用 cat、head、grep、jq 或任何文本编辑器检查。	否。需要专用工具（parquet-tools、PyArrow、DuckDB）来检查。
生态系统	通用。所有具有 JSON 解析器的编程语言都支持。	面向分析。与 Spark、Hive、Presto、DuckDB、Snowflake、BigQuery 深度集成。

JSONL vs Parquet：选择正确的数据格式

什么是 JSONL？

什么是 Parquet？

JSONL vs Parquet：逐项对比

性能基准测试

文件大小（压缩）

全表扫描

写入速度

单列查询

何时使用 JSONL 与 Parquet

混合架构：JSONL 摄入，Parquet 存储

1. 以 JSONL 格式摄入

2. 转换与验证

3. 以 Parquet 格式存储

试试我们的免费 JSONL 工具

在线处理 JSONL 文件

常见问题