JSONL-splitter

Splits grote JSONL (JSON Lines)-bestanden in kleinere delen op regelnummer of bestandsgrootte. 100% aan clientzijde, je gegevens verlaten nooit je browser.

Invoer JSONL

Sleep een .jsonl-bestand hierheen, of klik om te bladeren

Ondersteunt .jsonl, .ndjson, .json, .txt

Splitsopties

Op regelnummer

Op bestandsgrootte

Regels per bestand

Invoer JSONL

Sleep een .jsonl-bestand hierheen, of klik om te bladeren

Ondersteunt .jsonl, .ndjson, .json, .txt

Splitsopties

Op regelnummer

Op bestandsgrootte

Regels per bestand

Splitsresultaten

Plak of sleep JSONL-inhoud, configureer opties en splits

Hoe JSONL-bestanden splitsen

Upload je grote JSONL-bestand of plak de inhoud in het invoergebied. De tool accepteert .jsonl-, .ndjson-, .json- en .txt-bestanden van elke grootte.

Kies hoe je wilt splitsen: op regelnummer (bijv. 1000 regels per bestand) of op bestandsgrootte (bijv. 10 MB per bestand). De splitter verwerkt elke regel onafhankelijk, waardoor de integriteit van elk JSON-record behouden blijft.

Eenmaal gesplitst, download je elk deel afzonderlijk of gebruik je 'Alles downloaden als ZIP' om alle delen in één archief te krijgen. Elk uitvoerbestand is een geldig JSONL-bestand dat direct klaar is voor gebruik.

Wat is JSONL splitsen?

JSONL splitsen is het proces van het verdelen van een groot JSONL (JSON Lines)-bestand in meerdere kleinere bestanden, elk met een subset van de oorspronkelijke records. Omdat elke regel in een JSONL-bestand een onafhankelijk JSON-object is, is splitsen eenvoudig en breekt het nooit een record.

Dit is essentieel bij het werken met machine learning-platforms die uploadgroottelimieten hebben, batch-API's die een maximaal aantal verzoeken per batch accepteren, of datapipelines die beter presteren met kleinere invoerbestanden. Splitsen stelt je in staat data in beheersbare stukken te verwerken zonder de inhoud te wijzigen.

Veelvoorkomende gebruiksscenario's

OpenAI Batch API-limieten

Splits grote JSONL-bestanden om te voldoen aan de groottelimieten van de OpenAI Batch API (100 MB per bestand, 50.000 verzoeken per batch).

ML-trainingsdata partitioneren

Verdeel grote trainingsdatasets in train/validatie/test-splits of gelijke stukken voor gedistribueerde training.

Parallelle verwerking

Splits JSONL-bestanden in stukken voor parallelle verwerking over meerdere workers, threads of serverless functions.

Uploadgroottelimieten

Verdeel grote JSONL-exports in kleinere bestanden die passen binnen platformuploadlimieten (AWS S3 multipart, GitHub, e-mailbijlagen).

Incrementeel data laden

Splits grote datasets in kleinere batches voor incrementeel laden in databases of datawarehouses om time-outs te voorkomen.

Versiebeheer-vriendelijk

Splits enorme JSONL-databestanden in kleinere delen voor Git-versiebeheer, waardoor waarschuwingen voor grote bestanden worden vermeden en de leesbaarheid van diffs wordt verbeterd.

Veelvoorkomende fouten & oplossingen

Splitsen produceert lege bestanden

Dit kan gebeuren als de waarde voor regels-per-bestand groter is dan het totale aantal regels. Verminder het aantal regels per bestand, of gebruik in plaats daarvan splitsen op grootte.

Splitsen op grootte produceert ongelijke delen

Bij splitsen op grootte kan het laatste deel kleiner zijn dan de doelgrootte omdat regels nooit halverwege een record worden gesplitst. Elk bestand bevat gegarandeerd alleen complete JSON-regels.

Browser vertraagt bij zeer grote bestanden

Voor bestanden groter dan 500 MB kan de browser traag worden tijdens verwerking. Overweeg het bestand te splitsen met command-line tools zoals 'split' of 'wc -l' voor extreem grote datasets, en gebruik dan deze tool voor verificatie.

Veelgestelde vragen

Hoe verdeelt de splitter een JSONL-bestand?

Ja. Alle splitsing gebeurt lokaal in je browser met JavaScript. Er worden geen gegevens naar een server verzonden. Je JSONL-inhoud verlaat nooit je apparaat.

Kan ik ook splitsen op bestandsgrootte?

Er is geen vaste limiet. De splitter kan bestanden van enkele honderden megabytes verwerken. Prestaties zijn afhankelijk van je browser en apparaatgeheugen.

Upload deze JSONL-splitter mijn bestand?

Ja. Records worden sequentieel gesplitst. Het eerste bestand bevat de eerste N regels, het tweede bestand bevat de volgende N regels, enzovoort. Er worden geen records herschikt of gedupliceerd.

Welke bestandsnamen krijgen de gesplitste delen?

Momenteel kun je per keer één splitsmodus kiezen. Als je beide beperkingen nodig hebt, splits dan eerst op de meest restrictieve en controleer daarna of de resulterende bestanden aan beide vereisten voldoen.

Werkt deze tool ook voor NDJSON-bestanden?

Lege regels worden behouden tijdens het splitsen. Als je JSONL-bestand lege regels tussen records heeft, verschijnen deze in de uitvoerbestanden op hun oorspronkelijke positie. Gebruik onze JSONL Validator om lege regels op te schonen voor het splitsen indien nodig.

Kan ik gesplitste bestanden weer samenvoegen?

Ja. Aangezien elk gesplitst bestand een geldig JSONL-bestand is, kun je ze samenvoegen om het origineel te reconstrueren. Op de command line gebruik je 'cat part_*.jsonl > merged.jsonl'. Je kunt ook onze JSONL-tools gebruiken om bestanden te combineren.

Wat is de maximale bestandsgrootte die ik kan splitsen?

Gesplitste bestanden worden benoemd met een opvolgend deelnummer (bijv. part_001.jsonl, part_002.jsonl). Bij het downloaden als ZIP worden alle delen in één archief opgenomen.

Blijft de regelvolgorde behouden bij het splitsen?

Splitsen op grootte verzamelt regels totdat de doelgroottedrempel is bereikt. Het huidige bestand wordt gesloten en een nieuw bestand begint met de volgende regel. Regels worden nooit over bestanden gesplitst, dus elk deel kan iets boven of onder de doelgrootte liggen.

JSONL merger/OpenAI Batch API JSONL format/large JSONL files guide/JSONL validator/online JSONL tools