Divisore JSONL

Dividi file JSONL (JSON Lines) grandi in blocchi più piccoli per numero di righe o dimensione del file. 100% lato client, i tuoi dati non lasciano mai il tuo browser.

Input JSONL

Trascina un file .jsonl qui, o clicca per sfogliare

Supporta .jsonl, .ndjson, .json, .txt

Opzioni di Divisione

Come Dividere File JSONL

Carica il tuo file JSONL grande o incolla il suo contenuto nell'area di input. Lo strumento accetta file .jsonl, .ndjson, .json e .txt di qualsiasi dimensione.

Scegli come vuoi dividere: per numero di righe (ad es., 1000 righe per file) o per dimensione del file (ad es., 10 MB per file). Il divisore elabora ogni riga indipendentemente, preservando l'integrità di ogni record JSON.

Una volta diviso, scarica ogni parte singolarmente o usa 'Scarica Tutto come ZIP' per ottenere tutte le parti in un unico archivio. Ogni file di output è un file JSONL valido pronto per l'uso immediato.

Cos'è la Divisione JSONL?

La divisione JSONL è il processo di suddivisione di un file JSONL (JSON Lines) grande in più file più piccoli, ciascuno contenente un sottoinsieme dei record originali. Poiché ogni riga in un file JSONL è un oggetto JSON indipendente, la divisione è semplice e non interrompe mai alcun record.

Questo è essenziale quando si lavora con piattaforme di machine learning che hanno limiti di dimensione per il caricamento, API batch che accettano un numero massimo di record per richiesta o pipeline di dati che funzionano meglio con file di input più piccoli. La divisione ti permette di elaborare i dati in blocchi gestibili senza modificare il contenuto.

Casi d'Uso Comuni

Limiti della Batch API di OpenAI

Dividi file JSONL grandi per rispettare i limiti di dimensione della Batch API di OpenAI (100 MB per file, 50.000 richieste per batch).

Partizionamento Dati di Addestramento ML

Dividi grandi dataset di addestramento in suddivisioni train/validation/test o blocchi di dimensioni uguali per l'addestramento distribuito.

Elaborazione Parallela

Dividi file JSONL in blocchi per l'elaborazione parallela su più worker, thread o funzioni serverless.

Limiti di Dimensione per il Caricamento

Suddividi grandi esportazioni JSONL in file più piccoli che rispettano i limiti di caricamento delle piattaforme (S3 multipart di AWS, GitHub, allegati email).

Caricamento Dati Incrementale

Dividi grandi dataset in batch più piccoli per il caricamento incrementale in database o data warehouse per evitare timeout.

Compatibile con il Controllo Versione

Dividi file di dati JSONL massivi in parti più piccole per il controllo versione Git, evitando avvisi per file grandi e migliorando la leggibilità dei diff.

Errori Comuni e Soluzioni

La Divisione Produce File Vuoti

Questo può succedere se il valore di righe-per-file è maggiore del numero totale di righe. Riduci il numero di righe per file, o usa la divisione basata sulla dimensione.

La Divisione per Dimensione Produce Parti Irregolari

Quando si divide per dimensione, l'ultima parte potrebbe essere più piccola della dimensione target perché le righe non vengono mai interrotte a metà record. Ogni file è garantito contenere solo righe JSON complete.

Il Browser Rallenta con File Molto Grandi

Per file oltre 500 MB, il browser potrebbe rallentare durante l'elaborazione. Considera di dividere il file usando strumenti da riga di comando come 'split' o 'wc -l' per dataset estremamente grandi, poi usa questo strumento per la verifica.

Domande Frequenti

Come funziona la divisione dei file JSONL?

Sì. Tutta la divisione avviene localmente nel tuo browser usando JavaScript. Nessun dato viene inviato a nessun server. Il tuo contenuto JSONL non lascia mai il tuo dispositivo.

Posso dividere per dimensione del file?

Non c'è un limite fisso. Il divisore può gestire file di diverse centinaia di megabyte. Le prestazioni dipendono dal browser e dalla memoria del dispositivo.

Questo divisore JSONL carica il mio file?

Sì. I record vengono divisi sequenzialmente. Il primo file contiene le prime N righe, il secondo file contiene le successive N righe, e così via. Nessun record viene riordinato o duplicato.

Quale convenzione di denominazione hanno i blocchi divisi?

Attualmente, puoi scegliere una modalità di divisione alla volta. Se hai bisogno di entrambi i vincoli, dividi prima con quello più restrittivo, poi verifica che i file risultanti soddisfino entrambi i requisiti.

Posso dividere anche file NDJSON?

Le righe vuote vengono preservate durante la divisione. Se il tuo file JSONL ha righe vuote tra i record, appariranno nei file di output nella loro posizione originale. Usa il nostro Validatore JSONL per pulire le righe vuote prima della divisione se necessario.

Come posso riunire i file divisi?

Sì. Poiché ogni file diviso è un file JSONL valido, puoi concatenarli per ricostruire l'originale. Da riga di comando, usa 'cat part_*.jsonl > merged.jsonl'. Puoi anche usare i nostri strumenti JSONL per combinare i file.

Qual è la dimensione massima del file che posso dividere?

I file divisi sono nominati con un numero di parte sequenziale (ad es., part_001.jsonl, part_002.jsonl). Quando scarichi come ZIP, tutte le parti sono incluse in un unico archivio.

L'ordine delle righe viene preservato nella divisione?

La divisione per dimensione accumula righe fino al raggiungimento della soglia di dimensione target. Il file corrente viene chiuso e uno nuovo inizia con la riga successiva. Le righe non vengono mai divise tra file, quindi ogni parte potrebbe essere leggermente sopra o sotto la dimensione target.

JSONL merger/OpenAI Batch API JSONL format/large JSONL files guide/JSONL validator/online JSONL tools
Divisore JSONL — Dividi File JSONL Grandi per Righe o Dim...