JSONL 拆分器
按行数或文件大小将大型 JSONL(JSON Lines)文件拆分为更小的块。100% 客户端处理,数据不会离开您的浏览器。
输入 JSONL
拖拽 .jsonl 文件到此处,或点击浏览
支持 .jsonl, .ndjson, .json, .txt
拆分选项
输入 JSONL
拖拽 .jsonl 文件到此处,或点击浏览
支持 .jsonl, .ndjson, .json, .txt
拆分选项
拆分结果
粘贴或拖入 JSONL 内容,配置选项后进行拆分
如何拆分 JSONL 文件
上传您的大型 JSONL 文件或将其内容粘贴到输入区域。该工具接受任意大小的 .jsonl、.ndjson、.json 和 .txt 文件。
选择拆分方式:按行数(例如每个文件 1000 行)或按文件大小(例如每个文件 10 MB)。拆分器独立处理每一行,保证每条 JSON 记录的完整性。
拆分完成后,可以单独下载每个部分,或使用「全部下载为 ZIP」将所有部分打包下载。每个输出文件都是有效的 JSONL 文件,可以立即使用。
什么是 JSONL 拆分?
JSONL 拆分是将大型 JSONL(JSON Lines)文件分割为多个较小文件的过程,每个文件包含原始记录的一个子集。由于 JSONL 文件中的每一行都是独立的 JSON 对象,因此拆分操作简单直接,不会破坏任何记录。
当您使用的机器学习平台有上传大小限制、批量 API 对每次请求的记录数有上限,或者数据管道在处理较小输入文件时性能更好时,这一功能非常重要。拆分可以让您将数据分成可管理的块来处理,而不会修改内容。
常见用例
OpenAI Batch API 限制
拆分大型 JSONL 文件以满足 OpenAI Batch API 的大小限制(每个文件 100 MB,每批 50,000 个请求)。
ML 训练数据分区
将大型训练数据集划分为训练集/验证集/测试集,或等大小的块用于分布式训练。
并行处理
将 JSONL 文件拆分为块,在多个 worker、线程或 serverless 函数之间并行处理。
上传大小限制
将大型 JSONL 导出文件分割为符合平台上传限制的较小文件(AWS S3 分段上传、GitHub、邮件附件)。
增量数据加载
将大型数据集拆分为更小的批次,增量加载到数据库或数据仓库中,避免超时。
版本控制友好
将大型 JSONL 数据文件拆分为更小的部分用于 Git 版本控制,避免大文件警告并提高差异可读性。
常见错误与解决方案
拆分产生空文件
如果每文件行数的值大于总行数,可能会出现这种情况。减少每个文件的行数,或改用基于大小的拆分。
基于大小的拆分产生不均匀的部分
按大小拆分时,最后一个部分可能小于目标大小,因为行永远不会在记录中间被截断。每个文件保证只包含完整的 JSON 行。
处理超大文件时浏览器变慢
对于超过 500 MB 的文件,浏览器在处理过程中可能变慢。对于超大数据集,考虑使用命令行工具如 'split' 或 'wc -l',然后使用此工具进行验证。
常见问题
JSONL 拆分器如何分割文件?
是的。所有拆分操作都使用 JavaScript 在浏览器本地进行,不会将任何数据发送到服务器。您的 JSONL 内容永远不会离开您的设备。
可以按文件大小 (MB) 而非行数拆分 JSONL 吗?
没有硬性限制。拆分器可以处理数百 MB 的文件。性能取决于您的浏览器和设备内存。
这个 JSONL 拆分器会上传我的数据吗?
是的。记录按顺序拆分。第一个文件包含前 N 行,第二个文件包含接下来的 N 行,依此类推。不会重新排序或复制任何记录。
输出的分块文件如何命名?
目前一次只能选择一种拆分模式。如果您需要两种约束,先按更严格的条件拆分,然后验证生成的文件是否满足两个要求。
可以用这个工具拆分 NDJSON 文件吗?
空行在拆分过程中会被保留。如果您的 JSONL 文件在记录之间有空行,它们会出现在输出文件的原始位置。如果需要,可以在拆分前使用我们的 JSONL 验证器清理空行。
如何将拆分后的 JSONL 文件重新合并?
可以。由于每个拆分文件都是有效的 JSONL 文件,您可以通过连接它们来重建原始文件。在命令行中使用 'cat part_*.jsonl > merged.jsonl'。您也可以使用我们的 JSONL 工具合并文件。
输入文件大小有限制吗?
拆分文件使用顺序编号命名(例如 part_001.jsonl、part_002.jsonl)。下载为 ZIP 时,所有部分包含在单个压缩包中。
拆分会保留原始行顺序吗?
基于大小的拆分会累积行直到达到目标大小阈值。当前文件关闭,新文件从下一行开始。行永远不会跨文件拆分,因此每个部分可能略高于或低于目标大小。