JSONL 文件的正确扩展名是什么？

使用 .jsonl 作为标准扩展名。.ndjson（Newline Delimited JSON）扩展名代表相同的格式但不太常见。包括 OpenAI 和 BigQuery 在内的大多数工具和服务都期望 .jsonl 文件。选择一种约定并在项目中保持一致使用。

JSONL 文件中应该格式化输出 JSON 吗？

不应该。JSONL 文件中的每一行必须是一个完整、紧凑的 JSON 值，不带缩进或多余空格。格式化输出的 JSON 跨越多行，违反了每行一条记录的规则，会导致解析错误。始终使用紧凑格式序列化。

如何处理 JSONL 中字符串值内的换行符？

在 JSON 字符串中使用转义形式 \n，绝不使用原始换行符。原始换行符会破坏 JSONL 基于行的结构。Python 中的 json.dumps() 和 JavaScript 中的 JSON.stringify() 等标准 JSON 序列化器会自动处理此转义。

JSONL 需要 Schema 吗？

不需要，JSONL 没有内置的 Schema 要求。每行是一个独立的 JSON 值，可以有不同的字段。但是，强烈建议在记录间保持一致的 Schema。这简化了下游处理，防止运行时类型错误，并使您的数据与期望统一记录的工具兼容。

JSONL 文件应该使用什么编码？

始终使用 UTF-8 编码。这是几乎所有 JSONL 解析器、云服务和数据工具所期望的标准。避免使用 UTF-16、Latin-1 或其他编码。如果源数据使用其他编码，请在写入 JSONL 之前转换为 UTF-8。

如何快速验证 JSONL 文件？

使用 jsonl.co 上的 JSONL 验证器等在线工具可以在几秒钟内检查您的文件。它能检测无效的 JSON 行、编码问题和格式问题。如需程序化验证，为每行的 JSON 解析包裹 try-catch 块，并记录失败行的行号和错误信息。

JSONL 最佳实践

Name: JSONL Viewer & Editor Online
Author: jsonl.co

编写整洁、可靠、高性能 JSONL 文件的全面指南。学习格式规则、Schema 设计、错误处理策略和生产环境下的优化技巧。

最后更新：2026年2月

为什么 JSONL 的最佳实践很重要

JSONL（JSON Lines）看似简单：每行一个 JSON 对象，用换行符分隔。但简单并不意味着没有出错的空间。不一致的 Schema、编码问题、尾随逗号和嵌入式换行符是导致生产数据管道解析失败的最常见问题。遵循一套明确的最佳实践可以在问题发生之前就预防它们。

本指南涵盖了可靠地生产和消费 JSONL 数据的基本规则。无论您是在构建机器学习数据集、流式传输应用日志，还是在服务之间交换数据，这些实践都将帮助您避免隐蔽的 Bug 并提升 JSONL 工作流的性能。

格式规则

有效 JSONL 的基础是严格遵守几条格式规则。违反其中任何一条都会产生大多数解析器无法处理的文件。

JSONL 文件中的每一行必须是一个完整、独立的 JSON 值。绝不要将单个 JSON 对象分割到多行。格式化输出的 JSON 不是有效的 JSONL。始终使用紧凑格式序列化（键和值之间不使用缩进或多余空格）。

每行一个 JSON 对象

# Valid JSONL - one complete JSON per line
{"id":1,"name":"Alice","tags":["admin","user"]}
{"id":2,"name":"Bob","tags":["user"]}

# INVALID - pretty-printed JSON spans multiple lines
{
  "id": 1,
  "name": "Alice"
}

JSONL 文件必须使用 UTF-8 编码。几乎所有 JSONL 解析器、流式处理工具和云服务都默认使用此编码。避免使用 UTF-16、Latin-1 或其他编码。如果源数据使用其他编码，请在写入 JSONL 之前将其转换为 UTF-8。

始终使用 UTF-8 编码

# Python: always specify UTF-8 when reading/writing
with open('data.jsonl', 'w', encoding='utf-8') as f:
    f.write(json.dumps(record, ensure_ascii=False) + '\n')

# Node.js: UTF-8 is the default for fs
fs.appendFileSync('data.jsonl', JSON.stringify(record) + '\n', 'utf-8');

使用单个换行符（LF，\n）作为行分隔符。这是 Linux、macOS 和大多数云环境的标准。避免使用 Windows 的回车加换行（CRLF，\r\n），因为它可能导致解析问题。大多数现代编辑器和工具会自动处理这一点，但如果您跨平台工作，请检查设置。

换行符的选择

# Correct: LF line endings (\n)
{"id":1}\n{"id":2}\n

# Avoid: CRLF line endings (\r\n)
{"id":1}\r\n{"id":2}\r\n

# Tip: configure Git to normalize line endings
# .gitattributes
*.jsonl text eol=lf

Schema 一致性

虽然 JSONL 不强制要求 Schema，但保持记录间的一致性会使数据更易于处理。不一致的 Schema 会导致运行时错误、意外的空值和导入失败。

在所有记录中保持相同的字段名称、字段顺序和值类型。虽然 JSON 不要求字段排序，但一致的顺序可以提高可读性和压缩率。同一字段不要混合使用不同类型（例如，"price" 字段不应在某些记录中是字符串而在其他记录中是数字）。

一致的字段顺序和类型

# Good: consistent field order and types
{"id":1,"name":"Alice","age":30,"active":true}
{"id":2,"name":"Bob","age":25,"active":false}
{"id":3,"name":"Charlie","age":35,"active":true}

# Bad: inconsistent order, mixed types, missing fields
{"name":"Alice","id":1,"active":true}
{"id":"2","age":25,"name":"Bob"}
{"id":3,"active":"yes","name":"Charlie"}

当某个字段没有值时，应包含该字段并设为 JSON null，而不是完全省略该键。这使得下游处理更加简单，因为每条记录都有相同的键集合。消费者无需区分「字段缺失」和「字段为空」。

显式处理缺失值

# Good: include all fields, use null for missing values
{"id":1,"name":"Alice","email":"alice@example.com","phone":null}
{"id":2,"name":"Bob","email":null,"phone":"+1-555-0100"}

# Avoid: omitting keys for missing data
{"id":1,"name":"Alice","email":"alice@example.com"}
{"id":2,"name":"Bob","phone":"+1-555-0100"}

错误处理

实际的 JSONL 文件中经常会有少量无效行，原因可能是编码故障、写入截断或上游 Bug。健壮的消费者应该优雅地处理这些情况，而不是在遇到第一个错误行时就崩溃。

将每行的解析操作包裹在 try-catch 块中，并记录失败行的行号和错误信息。这样可以跳过无效行，同时保留出错记录。对于关键管道，将错误行收集到单独的文件中以便后续检查。

带行号追踪的容错解析

import json

def parse_jsonl_safe(path: str):
    """Parse JSONL with error tolerance."""
    valid, errors = [], []
    with open(path, 'r', encoding='utf-8') as f:
        for line_num, line in enumerate(f, 1):
            line = line.strip()
            if not line:
                continue
            try:
                valid.append(json.loads(line))
            except json.JSONDecodeError as e:
                errors.append({'line': line_num, 'error': str(e), 'raw': line})
    print(f'Parsed {len(valid)} records, {len(errors)} errors')
    return valid, errors

对于数据管道，在主处理逻辑之前添加验证步骤。检查每条记录是否具有预期的字段和类型，拒绝或隔离不匹配的记录。这可以防止在管道深处出现类型错误，那里的错误更难调试。

处理前先验证

def validate_record(record: dict) -> list[str]:
    """Validate a JSONL record against expected schema."""
    issues = []
    required = ['id', 'name', 'timestamp']
    for field in required:
        if field not in record:
            issues.append(f'Missing required field: {field}')
    if 'id' in record and not isinstance(record['id'], int):
        issues.append(f'Field "id" should be int, got {type(record["id"]).__name__}')
    return issues

# Usage in pipeline
for record in parse_jsonl_safe('data.jsonl')[0]:
    issues = validate_record(record)
    if issues:
        log_warning(f'Record {record.get("id")}: {issues}')
    else:
        process(record)

性能优化

在数据工程和机器学习工作流中，JSONL 文件可能增长到数 GB。正确的处理策略可以保持内存使用稳定且吞吐量高。

永远不要将整个 JSONL 文件一次性加载到内存中。一次读取和处理一行（或一批行）。这使得内存使用保持恒定，与文件大小无关。Python 的文件迭代天然是逐行的，Node.js 有 readline 和 stream API 实现同样的功能。

流式处理

# Python: stream with constant memory
import json

count = 0
with open('large.jsonl', 'r', encoding='utf-8') as f:
    for line in f:  # One line at a time, not f.readlines()!
        record = json.loads(line)
        process(record)
        count += 1
print(f'Processed {count} records')

写入数据库或调用 API 时，将多条记录批量处理而不是逐条处理。批处理可以减少 I/O 开销，提升 10-100 倍的吞吐量。对于大多数场景，每批 1,000 到 10,000 条记录效果较好。

批量操作

import json

def process_in_batches(path: str, batch_size: int = 5000):
    """Process JSONL records in batches for better throughput."""
    batch = []
    with open(path, 'r', encoding='utf-8') as f:
        for line in f:
            line = line.strip()
            if not line:
                continue
            batch.append(json.loads(line))
            if len(batch) >= batch_size:
                bulk_insert(batch)  # Send batch to database
                batch.clear()
    if batch:
        bulk_insert(batch)  # Flush remaining records

JSONL 的压缩效果极好，因为相邻行通常共享相同的键和相似的值。使用 gzip 进行存储和传输可以将文件大小减少 5-10 倍。大多数语言可以直接读取 gzip 压缩的 JSONL 而无需先解压到磁盘。

使用压缩进行存储和传输

import gzip
import json

# Write compressed JSONL
with gzip.open('data.jsonl.gz', 'wt', encoding='utf-8') as f:
    for record in records:
        f.write(json.dumps(record, ensure_ascii=False) + '\n')

# Read compressed JSONL
with gzip.open('data.jsonl.gz', 'rt', encoding='utf-8') as f:
    for line in f:
        record = json.loads(line)
        process(record)

常见错误

以下是用户使用我们的工具验证 JSONL 文件时最常遇到的问题。每个问题都会导致解析失败，如果没有正确的方法很难诊断。

JSON 不允许在对象或数组的最后一个元素后面有尾随逗号。这是最常见的错误之一，特别是对于从 JavaScript（允许尾随逗号）转来的开发者。始终去除输出中的尾随逗号。

尾随逗号

# INVALID: trailing comma after last property
{"id": 1, "name": "Alice",}

# VALID: no trailing comma
{"id": 1, "name": "Alice"}

# INVALID: trailing comma in array
{"tags": ["admin", "user",]}

# VALID: no trailing comma in array
{"tags": ["admin", "user"]}

如果字符串值包含原始换行符，它会破坏每行一条记录的规则并损坏您的 JSONL 文件。在 JSON 字符串中始终使用转义形式 \n，不要使用原始换行符。大多数 JSON 序列化器会自动处理这一点，但手动构建 JSON 字符串时要注意。

字符串值中的嵌入式换行符

# INVALID: raw newline inside a string value breaks JSONL
{"id": 1, "bio": "Line one
Line two"}

# VALID: escaped newline keeps everything on one line
{"id": 1, "bio": "Line one\nLine two"}

# Tip: json.dumps() in Python handles this automatically
import json
record = {"bio": "Line one\nLine two"}
print(json.dumps(record))
# Output: {"bio": "Line one\nLine two"}

在同一文件中混合使用 UTF-8 和 Latin-1（或其他编码）会产生乱码和解析错误。这通常发生在从不同来源追加数据时。始终在写入前统一转换为 UTF-8。如果收到未知编码的数据，先使用 chardet 等库检测编码再转换。

混合或错误的编码

# Python: detect and convert encoding
import chardet

def normalize_to_utf8(input_path: str, output_path: str):
    """Detect encoding and convert to UTF-8."""
    with open(input_path, 'rb') as f:
        raw = f.read()
    detected = chardet.detect(raw)
    encoding = detected['encoding'] or 'utf-8'
    print(f'Detected encoding: {encoding}')
    text = raw.decode(encoding)
    with open(output_path, 'w', encoding='utf-8') as f:
        f.write(text)

文件命名与组织

良好的文件命名和目录结构使 JSONL 数据更容易发现、管理和在自动化管道中处理。

使用 .jsonl 作为默认文件扩展名。它是 JSON Lines 文件最广泛认可的扩展名，也是 OpenAI 微调 API、BigQuery 和大多数数据平台所期望的格式。.ndjson 扩展名（Newline Delimited JSON）在技术上是具有不同名称的相同格式。选择一种约定并在项目中保持一致。

.jsonl 与 .ndjson 扩展名

# Recommended file naming conventions
data.jsonl              # Standard JSONL file
users_2026-02-14.jsonl  # Date-stamped export
train.jsonl             # ML training data
validation.jsonl        # ML validation split
events.jsonl.gz         # Compressed JSONL

按用途和日期组织 JSONL 文件。将原始输入数据和处理后的输出分开。对时间序列或日志数据使用基于日期的分区，方便处理特定日期范围和清理旧数据。

JSONL 项目的目录结构

project/
  data/
    raw/                  # Original unprocessed files
      events_2026-02-13.jsonl
      events_2026-02-14.jsonl
    processed/            # Cleaned and transformed
      events_clean.jsonl
    schemas/              # Schema documentation
      event_schema.json
  scripts/
    validate.py           # Validation script
    transform.py          # Transformation pipeline

在线验证您的 JSONL 文件

将这些最佳实践付诸行动。使用我们的免费在线工具直接在浏览器中验证、格式化和检查您的 JSONL 文件。

JSONL validator

JSONL formatter

JSONL schema validation

立即检查您的 JSONL 文件

在浏览器中验证和格式化最大 1GB 的 JSONL 文件。即时捕获格式错误、Schema 问题和编码问题。