Question 1

머신러닝 학습 데이터에 JSONL과 Parquet 중 무엇을 사용해야 하나요?

Accepted Answer

ML 플랫폼에 따라 다릅니다. OpenAI, Anthropic 및 많은 LLM 제공업체는 검증과 스트리밍이 쉽기 때문에 파인튜닝 업로드에 JSONL을 요구합니다. 그러나 Spark나 PyTorch의 피처 스토어 및 대규모 학습 파이프라인에서는 전체 데이터셋을 스캔하지 않고 특정 피처 컬럼을 읽을 수 있으므로 Parquet가 선호됩니다. 많은 팀이 학습 데이터를 JSONL로 수집하고 저장을 위해 Parquet로 변환합니다.

Question 2

Parquet는 JSONL보다 얼마나 작나요?

Accepted Answer

Parquet 파일은 데이터에 따라 일반적으로 동등한 JSONL 파일보다 3-10배 더 작습니다. 절감 효과는 두 가지에서 비롯됩니다: 컬럼 압축이 컬럼 내의 유사성을 활용하고(예: 국가 코드 컬럼이 매우 잘 압축됨), 바이너리 인코딩이 필드 이름 반복과 숫자의 텍스트 표현 오버헤드를 제거합니다. 일반적인 4 GB JSONL 파일의 경우 Parquet 동등물이 0.4-1.2 GB가 될 것으로 예상하세요.

Question 3

Parquet처럼 JSONL 파일을 SQL로 쿼리할 수 있나요?

Accepted Answer

네, DuckDB와 같은 도구는 JSONL과 Parquet 파일 모두를 SQL로 쿼리할 수 있습니다. 차이점은 성능입니다: DuckDB는 Parquet의 컬럼 형식을 활용하여 컬럼 프루닝과 프레디케이트 푸시다운을 수행하여 분석 쿼리를 수십 배 더 빠르게 합니다. JSONL의 경우 DuckDB는 모든 줄을 JSON으로 파싱해야 하므로 대용량 파일에서 상당히 느립니다. 대규모 SQL 쿼리가 필요한 경우 먼저 Parquet로 변환하는 것을 권장합니다.

Question 4

JSONL과 Parquet 사이의 변환이 가능한가요?

Accepted Answer

네. JSONL에서 Parquet로의 변환은 Python(pandas + PyArrow), DuckDB 또는 Apache Spark로 간단합니다. JSONL 파일을 DataFrame으로 읽은 다음 Parquet로 씁니다. 반대(Parquet에서 JSONL)도 간단합니다: Parquet 파일을 읽고 각 행을 JSON 줄로 씁니다. Parquet로 변환하려면 일관된 스키마가 필요하므로 JSONL의 스키마 불일치를 먼저 해결해야 합니다.

Question 5

Parquet가 JSONL처럼 중첩 또는 반정형 데이터를 처리할 수 있나요?

Accepted Answer

Parquet는 배열과 중첩 구조체를 표현할 수 있는 정의 및 반복 레벨 인코딩을 통해 중첩 데이터를 지원합니다. 그러나 고정 스키마가 필요하므로 모든 레코드가 동일한 구조를 준수해야 합니다. 다른 레코드가 완전히 다른 필드를 가질 수 있는 진정한 반정형 데이터에는 JSONL이 더 유연합니다. 안정적인 중첩 스키마가 있다면 Parquet가 잘 처리합니다. 레코드별로 스키마가 다르다면 JSONL이 더 나은 선택입니다.

Question 6

JSONL과 Parquet 모두를 다루는 최고의 도구는 무엇인가요?

Accepted Answer

DuckDB는 두 형식 모두에서 작동하는 가장 다재다능한 도구로, 설정 없이 JSONL 및 Parquet 파일에 대한 SQL 쿼리를 제공합니다. pandas와 PyArrow가 포함된 Python은 두 형식을 읽고 쓰는 데이터 파이프라인의 표준입니다. Apache Spark는 분산 환경에서 두 형식을 대규모로 처리합니다. JSONL 전용으로는 jq와 저희 온라인 JSONL 뷰어가 빠른 검사에 유용합니다. Parquet의 경우 parquet-tools와 PyArrow CLI가 메타데이터 검사 및 스키마 보기를 제공합니다.

특성	JSONL	Parquet
데이터 레이아웃	행 지향, 텍스트 기반. 각 줄은 완전한 JSON 객체.	컬럼 지향, 바이너리. 값이 로우 그룹과 함께 컬럼별로 저장.
인코딩	UTF-8 일반 텍스트. 사람이 읽을 수 있고, 모든 텍스트 편집기에서 편집 가능.	딕셔너리, RLE, 비트 패킹 인코딩이 포함된 바이너리. 사람이 읽을 수 없음.
압축	선택적 외부 압축(gzip, zstd). 필드 이름이 매 행마다 반복.	내장 컬럼 압축(Snappy, Zstd, Gzip). 2-10배 더 작은 파일.
쿼리 성능	모든 쿼리에 전체 파일 스캔 필요. 컬럼 프루닝이나 프레디케이트 푸시다운 없음.	컬럼 프루닝과 프레디케이트 푸시다운으로 관련 없는 데이터를 건너뜀. 분석 쿼리에 수십 배 더 빠름.
스키마	스키마 프리. 각 줄이 다른 필드와 타입을 가질 수 있음. 유연하지만 오류 발생 가능.	파일 메타데이터에 내장된 엄격한 타입 스키마. 읽기와 쓰기 시 적용.
스트리밍 / 추가	우수함. 파일 끝에 새 줄을 추가. 실시간 수집에 이상적.	부족함. 데이터를 추가하려면 다시 쓰거나 새 파일 파티션을 생성해야 함.
사람이 읽을 수 있음	네. cat, head, grep, jq 또는 모든 텍스트 편집기로 검사 가능.	아니오. 검사하려면 전문 도구(parquet-tools, PyArrow, DuckDB)가 필요.
생태계	보편적. JSON 파서가 있는 모든 프로그래밍 언어에서 지원.	분석 중심. Spark, Hive, Presto, DuckDB, Snowflake, BigQuery와 깊은 통합.

JSONL vs Parquet: 적합한 데이터 형식 선택하기

JSONL이란?

Parquet란?

JSONL vs Parquet: 나란히 비교

성능 벤치마크

파일 크기 (압축)

전체 테이블 스캔

쓰기 속도

단일 컬럼 쿼리

JSONL vs Parquet 사용 시기

하이브리드 아키텍처: JSONL 수집, Parquet 저장

1. JSONL로 수집

2. 변환 & 검증

3. Parquet로 저장

무료 JSONL 도구 사용해 보기

온라인으로 JSONL 파일 작업하기

자주 묻는 질문