JSONL 拆分器
按行數或檔案大小將大型 JSONL(JSON Lines)檔案拆分為更小的區塊。100% 在瀏覽器端處理,您的資料永遠不會離開瀏覽器。
輸入 JSONL
將 .jsonl 檔案拖放到這裡,或點擊瀏覽
支援 .jsonl、.ndjson、.json、.txt
拆分選項
輸入 JSONL
將 .jsonl 檔案拖放到這裡,或點擊瀏覽
支援 .jsonl、.ndjson、.json、.txt
拆分選項
拆分結果
貼上或拖放 JSONL 內容,設定選項後進行拆分
如何拆分 JSONL 檔案
上傳您的大型 JSONL 檔案或將其內容貼到輸入區域。工具接受任何大小的 .jsonl、.ndjson、.json 和 .txt 檔案。
選擇拆分方式:按行數(例如每個檔案 1000 行)或按檔案大小(例如每個檔案 10 MB)。拆分器獨立處理每一行,確保每筆 JSON 記錄的完整性。
拆分完成後,可以單獨下載每個部分,或使用「下載全部(ZIP)」將所有部分打包為一個壓縮檔。每個輸出檔案都是有效的 JSONL 檔案,可立即使用。
什麼是 JSONL 拆分?
JSONL 拆分是將大型 JSONL(JSON Lines)檔案分割為多個較小檔案的過程,每個檔案包含原始記錄的一個子集。由於 JSONL 檔案中的每一行都是獨立的 JSON 物件,因此拆分操作簡單且永遠不會破壞任何記錄。
在以下場景中拆分至關重要:機器學習平台有上傳大小限制、Batch API 對每次請求的記錄數有最大限制,或者資料管線使用較小的輸入檔案時效能更佳。拆分讓您能以可管理的區塊處理資料,而無需修改內容。
常見使用場景
OpenAI Batch API 限制
拆分大型 JSONL 檔案以符合 OpenAI Batch API 的大小限制(每個檔案 100 MB,每批次 50,000 個請求)。
ML 訓練資料分割
將大型訓練資料集分割為訓練集/驗證集/測試集,或等量的區塊用於分散式訓練。
平行處理
將 JSONL 檔案拆分為區塊,以便在多個 worker、執行緒或 serverless 函式之間平行處理。
上傳大小限制
將大型 JSONL 匯出檔案拆分為較小的檔案,以符合平台上傳限制(AWS S3 分段上傳、GitHub、電子郵件附件)。
增量資料載入
將大型資料集拆分為較小的批次,用於增量載入資料庫或資料倉儲,以避免逾時。
版本控制友好
將大型 JSONL 資料檔案拆分為較小的部分,便於 Git 版本控制,避免大型檔案警告並提高差異比較的可讀性。
常見錯誤與解決方案
拆分產生空檔案
如果每個檔案的行數大於總行數,就會發生這種情況。請減少每個檔案的行數,或改用按大小拆分。
按大小拆分產生不均勻的部分
按大小拆分時,最後一個部分可能小於目標大小,因為行永遠不會在記錄中間被截斷。每個檔案保證只包含完整的 JSON 行。
處理超大檔案時瀏覽器變慢
對於超過 500 MB 的檔案,瀏覽器在處理過程中可能會變慢。對於極大的資料集,建議使用命令列工具如 'split' 或 'wc -l' 進行拆分,然後使用本工具進行驗證。
常見問題
這個 JSONL 拆分器如何分割檔案?
安全。所有拆分都使用 JavaScript 在瀏覽器本機完成。沒有資料會傳送到任何伺服器。您的 JSONL 內容永遠不會離開您的裝置。
可以按檔案大小(MB)而非行數拆分 JSONL 嗎?
沒有硬性限制。拆分器可以處理數百 MB 的檔案。效能取決於您的瀏覽器和裝置記憶體。
這個 JSONL 拆分器會上傳我的資料嗎?
是的。記錄按順序拆分。第一個檔案包含前 N 行,第二個檔案包含接下來的 N 行,依此類推。不會重新排序或複製任何記錄。
輸出的區塊檔案如何命名?
目前一次只能選擇一種拆分模式。如果您需要同時滿足兩個條件,請先按限制更嚴格的條件拆分,然後驗證結果檔案是否滿足兩個要求。
可以用這個工具拆分 NDJSON 檔案嗎?
拆分過程中會保留空行。如果您的 JSONL 檔案在記錄之間有空行,它們會出現在輸出檔案的原始位置。如需在拆分前清理空行,請使用我們的 JSONL 驗證器。
如何將拆分的 JSONL 檔案重新合併?
可以。由於每個拆分檔案都是有效的 JSONL 檔案,您可以將它們串接以重建原始檔案。在命令列中使用 'cat part_*.jsonl > merged.jsonl'。您也可以使用我們的 JSONL 工具來合併檔案。
輸入檔案的最大限制是多少?
拆分檔案使用連續的部分編號命名(例如 part_001.jsonl、part_002.jsonl)。下載為 ZIP 時,所有部分都包含在一個壓縮檔中。
拆分是否保留原始行順序?
按大小拆分會累積行直到達到目標大小閾值。當前檔案會被關閉,下一行開始新的檔案。行永遠不會跨檔案拆分,因此每個部分可能略高於或低於目標大小。