Dzielnik JSONL

Podziel duze pliki JSONL (JSON Lines) na mniejsze czesci wedlug liczby linii lub rozmiaru pliku. 100% po stronie klienta, Twoje dane nigdy nie opuszczaja przegladarki.

Wejscie JSONL

Upusc plik .jsonl tutaj lub kliknij, aby przegladac

Obsluguje .jsonl, .ndjson, .json, .txt

Opcje podzialu

Jak podzielic pliki JSONL

Przeslij duzy plik JSONL lub wklej jego zawartosc w obszar wejsciowy. Narzedzie akceptuje pliki .jsonl, .ndjson, .json i .txt dowolnej wielkosci.

Wybierz sposob podzialu: wedlug liczby linii (np. 1000 linii na plik) lub wedlug rozmiaru pliku (np. 10 MB na plik). Dzielnik przetwarza kazda linie niezaleznie, zachowujac integralnosc kazdego rekordu JSON.

Po podziale pobierz kazda czesc osobno lub uzyj 'Pobierz wszystko jako ZIP', aby otrzymac wszystkie czesci w jednym archiwum. Kazdy plik wyjsciowy jest prawidlowym plikiem JSONL gotowym do natychmiastowego uzycia.

Czym jest dzielenie JSONL?

Dzielenie JSONL to proces podzialu duzego pliku JSONL (JSON Lines) na wiele mniejszych plikow, z ktorych kazdy zawiera podzbiór oryginalnych rekordow. Poniewaz kazda linia w pliku JSONL jest niezaleznym obiektem JSON, dzielenie jest proste i nigdy nie przerywa zadnego rekordu.

Jest to niezbedne podczas pracy z platformami uczenia maszynowego, ktore maja limity rozmiaru przesylanych plikow, API wsadowymi akceptujacymi maksymalna liczbe zapytan na zadanie lub potokami danych, ktore dzialaja lepiej z mniejszymi plikami wejsciowymi. Dzielenie pozwala przetwarzac dane w zarzadzalnych porcjach bez modyfikowania zawartosci.

Typowe zastosowania

Limity OpenAI Batch API

Podziel duze pliki JSONL, aby spelnic limity rozmiaru OpenAI Batch API (100 MB na plik, 50 000 zapytan na partie).

Partycjonowanie danych treningowych ML

Podziel duze zbiory danych treningowych na podzbiory train/validation/test lub rowne czesci do treningu rozproszonego.

Przetwarzanie rownolegle

Podziel pliki JSONL na czesci do rownolelego przetwarzania przez wiele workerow, watkow lub funkcji serverless.

Limity rozmiaru przesylania

Podziel duze eksporty JSONL na mniejsze pliki mieszczace sie w limitach przesylania platform (AWS S3 multipart, GitHub, zalaczniki e-mail).

Przyrostowe ladowanie danych

Podziel duze zbiory danych na mniejsze partie do przyrostowego ladowania do baz danych lub hurtowni danych, aby uniknac przekroczen czasu.

Przyjaznosc dla kontroli wersji

Podziel ogromne pliki danych JSONL na mniejsze czesci do kontroli wersji Git, unikajac ostrzezen o duzych plikach i poprawiajac czytelnosc diffow.

Czeste bledy i rozwiazania

Podzial tworzy puste pliki

Moze sie to zdarzyc, jesli wartosc linii na plik jest wieksza niz calkowita liczba linii. Zmniejsz liczbe linii na plik lub uzyj podzialu wedlug rozmiaru.

Podzial wedlug rozmiaru tworzy nierowne czesci

Podczas podzialu wedlug rozmiaru ostatnia czesc moze byc mniejsza niz docelowy rozmiar, poniewaz linie nigdy nie sa przerywane w srodku rekordu. Kazdy plik gwarantuje zawartosc tylko kompletnych linii JSON.

Przegladarka zwalnia przy bardzo duzych plikach

W przypadku plikow powyzej 500 MB przegladarka moze spowolnic podczas przetwarzania. Rozwaz podzial pliku za pomoca narzedzi wiersza polecen, takich jak 'split' lub 'wc -l' dla ekstremalnie duzych zbiorow danych, a nastepnie uzyj tego narzedzia do weryfikacji.

Najczesciej zadawane pytania

Jak podzielić plik JSONL na mniejsze części?

Tak. Cale dzielenie odbywa sie lokalnie w Twojej przegladarce za pomoca JavaScript. Zadne dane nie sa wysylane na zaden serwer. Twoja zawartosc JSONL nigdy nie opuszcza Twojego urzadzenia.

Jak działa dzielenie według rozmiaru pliku?

Nie ma twardego limitu. Dzielnik moze obslugiwac pliki o rozmiarze kilkuset megabajtow. Wydajnosc zalezy od przegladarki i pamieci urzadzenia.

Czy ten dzielnik JSONL przesyła mój plik?

Tak. Rekordy sa dzielone sekwencyjnie. Pierwszy plik zawiera pierwsze N linii, drugi plik zawiera nastepne N linii itd. Zadne rekordy nie sa zmieniane ani duplikowane.

Jaka konwencja nazewnictwa jest stosowana dla podzielonych plików?

Obecnie mozna wybrac jeden tryb podzialu naraz. Jesli potrzebujesz obu ograniczen, najpierw podziel wedlug bardziej restrykcyjnego, a nastepnie sprawdz, czy wynikowe pliki spelniaja oba wymagania.

Czy mogę dzielić pliki NDJSON za pomocą tego narzędzia?

Puste linie sa zachowywane podczas dzielenia. Jesli plik JSONL ma puste linie miedzy rekordami, pojawia sie w plikach wyjsciowych na swoich oryginalnych pozycjach. Uzyj naszego Walidatora JSONL, aby oczyscic puste linie przed podzielem, jesli to konieczne.

Jak połączyć podzielone pliki z powrotem?

Tak. Poniewaz kazdy podzielony plik jest prawidlowym plikiem JSONL, mozesz je polaczyc, aby odtworzyc oryginal. W wierszu polecen uzyj 'cat part_*.jsonl > merged.jsonl'. Mozesz rowniez uzyc naszych narzedzi JSONL do laczenia plikow.

Jaki jest maksymalny rozmiar pliku do podziału?

Podzielone pliki sa nazwane z sekwencyjnym numerem czesci (np. part_001.jsonl, part_002.jsonl). Podczas pobierania jako ZIP wszystkie czesci sa zawarte w jednym archiwum.

Czy dzielenie zachowuje kolejność rekordów?

Dzielenie wedlug rozmiaru gromadzi linie, az osiagniety zostanie prog docelowego rozmiaru. Biezacy plik jest zamykany i nowy zaczyna sie od nastepnej linii. Linie nigdy nie sa dzielone miedzy plikami, wiec kazda czesc moze byc nieco wieksza lub mniejsza od docelowego rozmiaru.

JSONL merger/OpenAI Batch API JSONL format/large JSONL files guide/JSONL validator/online JSONL tools
Dzielnik JSONL — podziel duże pliki JSONL według linii lu...