Divisor JSONL

Divide archivos JSONL (JSON Lines) grandes en fragmentos más pequeños por número de líneas o tamaño de archivo. 100% del lado del cliente, tus datos nunca salen de tu navegador.

Entrada JSONL

Arrastra un archivo .jsonl aquí, o haz clic para explorar

Compatible con .jsonl, .ndjson, .json, .txt

Opciones de división

Cómo dividir archivos JSONL

Sube tu archivo JSONL grande o pega su contenido en el área de entrada. La herramienta acepta archivos .jsonl, .ndjson, .json y .txt de cualquier tamaño.

Elige cómo quieres dividir: por número de líneas (ej., 1000 líneas por archivo) o por tamaño de archivo (ej., 10 MB por archivo). El divisor procesa cada línea independientemente, preservando la integridad de cada registro JSON.

Una vez dividido, descarga cada parte individualmente o usa 'Descargar todo como ZIP' para obtener todas las partes en un solo archivo. Cada archivo de salida es un archivo JSONL válido listo para uso inmediato.

¿Qué es la división de JSONL?

La división de JSONL es el proceso de dividir un archivo JSONL (JSON Lines) grande en múltiples archivos más pequeños, cada uno conteniendo un subconjunto de los registros originales. Dado que cada línea en un archivo JSONL es un objeto JSON independiente, la división es directa y nunca rompe ningún registro.

Esto es esencial cuando se trabaja con plataformas de aprendizaje automático que tienen límites de tamaño de subida, APIs de lotes que aceptan un número máximo de registros por solicitud, o pipelines de datos que funcionan mejor con archivos de entrada más pequeños. La división te permite procesar datos en fragmentos manejables sin modificar el contenido.

Casos de uso comunes

Límites de la Batch API de OpenAI

Divide archivos JSONL grandes para cumplir con los límites de tamaño de la Batch API de OpenAI (100 MB por archivo, 50,000 solicitudes por lote).

Partición de datos de entrenamiento ML

Divide datasets de entrenamiento grandes en conjuntos de entrenamiento/validación/prueba o fragmentos de igual tamaño para entrenamiento distribuido.

Procesamiento paralelo

Divide archivos JSONL en fragmentos para procesamiento paralelo entre múltiples workers, hilos o funciones serverless.

Límites de tamaño de subida

Divide exportaciones JSONL grandes en archivos más pequeños que se ajusten a los límites de subida de plataformas (multipart de AWS S3, GitHub, archivos adjuntos de correo).

Carga incremental de datos

Divide datasets grandes en lotes más pequeños para carga incremental en bases de datos o data warehouses para evitar timeouts.

Compatible con control de versiones

Divide archivos de datos JSONL masivos en partes más pequeñas para control de versiones con Git, evitando advertencias de archivos grandes y mejorando la legibilidad de los diffs.

Errores comunes y soluciones

La división produce archivos vacíos

Esto puede suceder si el valor de líneas por archivo es mayor que el número total de líneas. Reduce el número de líneas por archivo, o usa la división por tamaño en su lugar.

La división por tamaño produce partes desiguales

Al dividir por tamaño, la última parte puede ser más pequeña que el tamaño objetivo porque las líneas nunca se cortan a mitad de un registro. Cada archivo está garantizado de contener solo líneas JSON completas.

El navegador se ralentiza con archivos muy grandes

Para archivos de más de 500 MB, el navegador puede volverse lento durante el procesamiento. Considera dividir el archivo usando herramientas de línea de comandos como 'split' o 'wc -l' para datasets extremadamente grandes, y luego usa esta herramienta para verificación.

Preguntas frecuentes

¿Cómo divide los archivos este divisor JSONL?

Sí. Toda la división ocurre localmente en tu navegador usando JavaScript. No se envían datos a ningún servidor. Tu contenido JSONL nunca sale de tu dispositivo.

¿Puedo dividir JSONL por tamaño de archivo (MB) en lugar de por número de líneas?

No hay un límite estricto. El divisor puede manejar archivos de varios cientos de megabytes. El rendimiento depende de tu navegador y la memoria del dispositivo.

¿Este divisor JSONL sube mis datos?

Sí. Los registros se dividen secuencialmente. El primer archivo contiene las primeras N líneas, el segundo archivo contiene las siguientes N líneas, y así sucesivamente. No se reordena ni duplica ningún registro.

¿Cómo se nombran los archivos de salida?

Actualmente, puedes elegir un modo de división a la vez. Si necesitas ambas restricciones, divide primero por la más restrictiva y luego verifica que los archivos resultantes cumplan ambos requisitos.

¿Puedo dividir archivos NDJSON con esta herramienta?

Las líneas vacías se preservan durante la división. Si tu archivo JSONL tiene líneas vacías entre registros, aparecerán en los archivos de salida en sus posiciones originales. Usa nuestro Validador JSONL para limpiar las líneas vacías antes de dividir si es necesario.

¿Cómo vuelvo a unir los archivos JSONL divididos?

Sí. Dado que cada archivo dividido es un archivo JSONL válido, puedes concatenarlos para reconstruir el original. En la línea de comandos, usa 'cat part_*.jsonl > merged.jsonl'. También puedes usar nuestras herramientas JSONL para combinar archivos.

¿Hay un tamaño máximo de archivo de entrada?

Los archivos divididos se nombran con un número de parte secuencial (ej., part_001.jsonl, part_002.jsonl). Al descargar como ZIP, todas las partes se incluyen en un solo archivo.

¿La división preserva el orden original de las líneas?

La división por tamaño acumula líneas hasta que se alcanza el umbral de tamaño objetivo. El archivo actual se cierra y uno nuevo comienza con la siguiente línea. Las líneas nunca se dividen entre archivos, por lo que cada parte puede ser ligeramente mayor o menor que el tamaño objetivo.

JSONL merger/OpenAI Batch API JSONL format/large JSONL files guide/JSONL validator/online JSONL tools
Divisor JSONL — Divide archivos JSONL grandes por líneas ...