Dzielnik JSONL
Podziel duze pliki JSONL (JSON Lines) na mniejsze czesci wedlug liczby linii lub rozmiaru pliku. 100% po stronie klienta, Twoje dane nigdy nie opuszczaja przegladarki.
Wejscie JSONL
Upusc plik .jsonl tutaj lub kliknij, aby przegladac
Obsluguje .jsonl, .ndjson, .json, .txt
Opcje podzialu
Wejscie JSONL
Upusc plik .jsonl tutaj lub kliknij, aby przegladac
Obsluguje .jsonl, .ndjson, .json, .txt
Opcje podzialu
Wyniki podzialu
Wklej lub upusc zawartosc JSONL, skonfiguruj opcje i podziel
Jak podzielic pliki JSONL
Przeslij duzy plik JSONL lub wklej jego zawartosc w obszar wejsciowy. Narzedzie akceptuje pliki .jsonl, .ndjson, .json i .txt dowolnej wielkosci.
Wybierz sposob podzialu: wedlug liczby linii (np. 1000 linii na plik) lub wedlug rozmiaru pliku (np. 10 MB na plik). Dzielnik przetwarza kazda linie niezaleznie, zachowujac integralnosc kazdego rekordu JSON.
Po podziale pobierz kazda czesc osobno lub uzyj 'Pobierz wszystko jako ZIP', aby otrzymac wszystkie czesci w jednym archiwum. Kazdy plik wyjsciowy jest prawidlowym plikiem JSONL gotowym do natychmiastowego uzycia.
Czym jest dzielenie JSONL?
Dzielenie JSONL to proces podzialu duzego pliku JSONL (JSON Lines) na wiele mniejszych plikow, z ktorych kazdy zawiera podzbiór oryginalnych rekordow. Poniewaz kazda linia w pliku JSONL jest niezaleznym obiektem JSON, dzielenie jest proste i nigdy nie przerywa zadnego rekordu.
Jest to niezbedne podczas pracy z platformami uczenia maszynowego, ktore maja limity rozmiaru przesylanych plikow, API wsadowymi akceptujacymi maksymalna liczbe zapytan na zadanie lub potokami danych, ktore dzialaja lepiej z mniejszymi plikami wejsciowymi. Dzielenie pozwala przetwarzac dane w zarzadzalnych porcjach bez modyfikowania zawartosci.
Typowe zastosowania
Limity OpenAI Batch API
Podziel duze pliki JSONL, aby spelnic limity rozmiaru OpenAI Batch API (100 MB na plik, 50 000 zapytan na partie).
Partycjonowanie danych treningowych ML
Podziel duze zbiory danych treningowych na podzbiory train/validation/test lub rowne czesci do treningu rozproszonego.
Przetwarzanie rownolegle
Podziel pliki JSONL na czesci do rownolelego przetwarzania przez wiele workerow, watkow lub funkcji serverless.
Limity rozmiaru przesylania
Podziel duze eksporty JSONL na mniejsze pliki mieszczace sie w limitach przesylania platform (AWS S3 multipart, GitHub, zalaczniki e-mail).
Przyrostowe ladowanie danych
Podziel duze zbiory danych na mniejsze partie do przyrostowego ladowania do baz danych lub hurtowni danych, aby uniknac przekroczen czasu.
Przyjaznosc dla kontroli wersji
Podziel ogromne pliki danych JSONL na mniejsze czesci do kontroli wersji Git, unikajac ostrzezen o duzych plikach i poprawiajac czytelnosc diffow.
Czeste bledy i rozwiazania
Podzial tworzy puste pliki
Moze sie to zdarzyc, jesli wartosc linii na plik jest wieksza niz calkowita liczba linii. Zmniejsz liczbe linii na plik lub uzyj podzialu wedlug rozmiaru.
Podzial wedlug rozmiaru tworzy nierowne czesci
Podczas podzialu wedlug rozmiaru ostatnia czesc moze byc mniejsza niz docelowy rozmiar, poniewaz linie nigdy nie sa przerywane w srodku rekordu. Kazdy plik gwarantuje zawartosc tylko kompletnych linii JSON.
Przegladarka zwalnia przy bardzo duzych plikach
W przypadku plikow powyzej 500 MB przegladarka moze spowolnic podczas przetwarzania. Rozwaz podzial pliku za pomoca narzedzi wiersza polecen, takich jak 'split' lub 'wc -l' dla ekstremalnie duzych zbiorow danych, a nastepnie uzyj tego narzedzia do weryfikacji.
Najczesciej zadawane pytania
Jak podzielić plik JSONL na mniejsze części?
Tak. Cale dzielenie odbywa sie lokalnie w Twojej przegladarce za pomoca JavaScript. Zadne dane nie sa wysylane na zaden serwer. Twoja zawartosc JSONL nigdy nie opuszcza Twojego urzadzenia.
Jak działa dzielenie według rozmiaru pliku?
Nie ma twardego limitu. Dzielnik moze obslugiwac pliki o rozmiarze kilkuset megabajtow. Wydajnosc zalezy od przegladarki i pamieci urzadzenia.
Czy ten dzielnik JSONL przesyła mój plik?
Tak. Rekordy sa dzielone sekwencyjnie. Pierwszy plik zawiera pierwsze N linii, drugi plik zawiera nastepne N linii itd. Zadne rekordy nie sa zmieniane ani duplikowane.
Jaka konwencja nazewnictwa jest stosowana dla podzielonych plików?
Obecnie mozna wybrac jeden tryb podzialu naraz. Jesli potrzebujesz obu ograniczen, najpierw podziel wedlug bardziej restrykcyjnego, a nastepnie sprawdz, czy wynikowe pliki spelniaja oba wymagania.
Czy mogę dzielić pliki NDJSON za pomocą tego narzędzia?
Puste linie sa zachowywane podczas dzielenia. Jesli plik JSONL ma puste linie miedzy rekordami, pojawia sie w plikach wyjsciowych na swoich oryginalnych pozycjach. Uzyj naszego Walidatora JSONL, aby oczyscic puste linie przed podzielem, jesli to konieczne.
Jak połączyć podzielone pliki z powrotem?
Tak. Poniewaz kazdy podzielony plik jest prawidlowym plikiem JSONL, mozesz je polaczyc, aby odtworzyc oryginal. W wierszu polecen uzyj 'cat part_*.jsonl > merged.jsonl'. Mozesz rowniez uzyc naszych narzedzi JSONL do laczenia plikow.
Jaki jest maksymalny rozmiar pliku do podziału?
Podzielone pliki sa nazwane z sekwencyjnym numerem czesci (np. part_001.jsonl, part_002.jsonl). Podczas pobierania jako ZIP wszystkie czesci sa zawarte w jednym archiwum.
Czy dzielenie zachowuje kolejność rekordów?
Dzielenie wedlug rozmiaru gromadzi linie, az osiagniety zostanie prog docelowego rozmiaru. Biezacy plik jest zamykany i nowy zaczyna sie od nastepnej linii. Linie nigdy nie sa dzielone miedzy plikami, wiec kazda czesc moze byc nieco wieksza lub mniejsza od docelowego rozmiaru.