JSONL 분할기

대용량 JSONL(JSON Lines) 파일을 줄 수 또는 파일 크기별로 작은 청크로 분할합니다. 100% 클라이언트 측 처리, 데이터는 브라우저를 떠나지 않습니다.

입력 JSONL

.jsonl 파일을 여기에 드롭하거나 클릭하여 찾아보기

.jsonl, .ndjson, .json, .txt 지원

분할 옵션

JSONL 파일 분할 방법

대용량 JSONL 파일을 업로드하거나 입력 영역에 내용을 붙여넣으세요. 이 도구는 모든 크기의 .jsonl, .ndjson, .json, .txt 파일을 허용합니다.

분할 방법을 선택하세요: 줄 수 기준(예: 파일당 1000줄) 또는 파일 크기 기준(예: 파일당 10MB). 분할기는 각 줄을 독립적으로 처리하여 모든 JSON 레코드의 무결성을 보존합니다.

분할이 완료되면 각 파트를 개별적으로 다운로드하거나 '전체 ZIP 다운로드'를 사용하여 모든 파트를 단일 아카이브로 받을 수 있습니다. 각 출력 파일은 즉시 사용할 수 있는 유효한 JSONL 파일입니다.

JSONL 분할이란?

JSONL 분할은 대용량 JSONL(JSON Lines) 파일을 원본 레코드의 부분집합을 포함하는 여러 개의 작은 파일로 나누는 과정입니다. JSONL 파일의 모든 줄은 독립적인 JSON 객체이므로 분할이 간단하며 레코드를 손상시키지 않습니다.

업로드 크기 제한이 있는 머신러닝 플랫폼, 요청당 최대 레코드 수를 허용하는 배치 API, 또는 더 작은 입력 파일에서 더 나은 성능을 보이는 데이터 파이프라인을 사용할 때 필수적입니다. 분할을 사용하면 콘텐츠를 수정하지 않고 관리 가능한 청크로 데이터를 처리할 수 있습니다.

일반적인 사용 사례

OpenAI Batch API 제한

OpenAI Batch API 크기 제한(파일당 100MB, 배치당 50,000개 요청)을 충족하기 위해 대용량 JSONL 파일을 분할합니다.

ML 훈련 데이터 파티셔닝

대규모 훈련 데이터셋을 train/validation/test 분할로 나누거나 분산 훈련을 위한 균등 크기의 청크로 분할합니다.

병렬 처리

여러 워커, 스레드 또는 서버리스 함수에서 병렬 처리를 위해 JSONL 파일을 청크로 분할합니다.

업로드 크기 제한

플랫폼 업로드 제한(AWS S3 멀티파트, GitHub, 이메일 첨부) 내에 맞도록 대용량 JSONL 내보내기를 작은 파일로 나눕니다.

증분 데이터 로딩

타임아웃을 방지하기 위해 대규모 데이터셋을 데이터베이스나 데이터 웨어하우스에 증분 로딩하기 위한 작은 배치로 분할합니다.

버전 관리 친화적

대용량 파일 경고를 방지하고 diff 가독성을 개선하기 위해 대규모 JSONL 데이터 파일을 Git 버전 관리용 작은 파트로 분할합니다.

일반적인 오류 및 해결 방법

분할 결과 빈 파일 생성

파일당 줄 수 값이 총 줄 수보다 큰 경우 발생할 수 있습니다. 파일당 줄 수를 줄이거나 크기 기반 분할을 대신 사용하세요.

크기 기반 분할로 불균등한 파트 생성

크기 기준 분할 시 줄이 레코드 중간에 끊어지지 않으므로 마지막 파트가 목표 크기보다 작을 수 있습니다. 각 파일은 완전한 JSON 줄만 포함하는 것이 보장됩니다.

매우 큰 파일에서 브라우저 속도 저하

500MB 이상의 파일의 경우 처리 중 브라우저가 느려질 수 있습니다. 매우 큰 데이터셋은 'split'이나 'wc -l'과 같은 명령줄 도구를 사용하여 분할한 후 이 도구를 검증용으로 사용하세요.

자주 묻는 질문

이 JSONL 분할기는 파일을 어떻게 나누나요?

네. 모든 분할은 JavaScript를 사용하여 브라우저에서 로컬로 이루어집니다. 서버로 전송되는 데이터가 없습니다. JSONL 콘텐츠는 기기를 떠나지 않습니다.

줄 수 대신 파일 크기(MB)로 JSONL을 분할할 수 있나요?

엄격한 제한은 없습니다. 분할기는 수백 메가바이트의 파일을 처리할 수 있습니다. 성능은 브라우저와 기기 메모리에 따라 달라집니다.

이 JSONL 분할기가 내 데이터를 업로드하나요?

네. 레코드는 순차적으로 분할됩니다. 첫 번째 파일에는 처음 N줄, 두 번째 파일에는 다음 N줄이 포함됩니다. 레코드가 재정렬되거나 복제되지 않습니다.

출력 청크 파일의 이름은 어떻게 지정되나요?

현재는 한 번에 하나의 분할 모드만 선택할 수 있습니다. 두 제약 조건이 모두 필요한 경우 더 제한적인 것으로 먼저 분할한 다음 결과 파일이 두 요구 사항을 모두 충족하는지 확인하세요.

이 도구로 NDJSON 파일을 분할할 수 있나요?

빈 줄은 분할 중 유지됩니다. JSONL 파일에 레코드 사이에 빈 줄이 있으면 출력 파일에서 원래 위치에 나타납니다. 필요한 경우 분할 전에 JSONL 검증기를 사용하여 빈 줄을 정리할 수 있습니다.

분할된 JSONL 파일을 다시 합치려면 어떻게 하나요?

네. 각 분할 파일은 유효한 JSONL 파일이므로 연결하여 원본을 복원할 수 있습니다. 명령줄에서 'cat part_*.jsonl > merged.jsonl'을 사용하세요. JSONL 도구를 사용하여 파일을 결합할 수도 있습니다.

최대 입력 파일 크기 제한이 있나요?

분할된 파일은 순차적 파트 번호로 명명됩니다(예: part_001.jsonl, part_002.jsonl). ZIP으로 다운로드할 때 모든 파트가 단일 아카이브에 포함됩니다.

분할 시 원래 줄 순서가 유지되나요?

크기 기반 분할은 목표 크기 임계값에 도달할 때까지 줄을 누적합니다. 현재 파일을 닫고 다음 줄부터 새 파일을 시작합니다. 줄은 파일 간에 분할되지 않으므로 각 파트가 목표 크기보다 약간 크거나 작을 수 있습니다.

JSONL merger/OpenAI Batch API JSONL format/large JSONL files guide/JSONL validator/online JSONL tools
JSONL 분할기 — 대용량 JSONL 파일을 줄 수 또는 크기로 분할 | jsonl.co