JSONL-Aufteiler

Teilen Sie große JSONL (JSON Lines)-Dateien nach Zeilenanzahl oder Dateigröße in kleinere Teile auf. 100 % clientseitig, Ihre Daten verlassen niemals Ihren Browser.

Eingabe JSONL

Eine .jsonl-Datei hier ablegen oder zum Durchsuchen klicken

Unterstützt .jsonl, .ndjson, .json, .txt

Aufteilungsoptionen

Wie man JSONL-Dateien aufteilt

Laden Sie Ihre große JSONL-Datei hoch oder fügen Sie ihren Inhalt in den Eingabebereich ein. Das Tool akzeptiert .jsonl-, .ndjson-, .json- und .txt-Dateien jeder Größe.

Wählen Sie, wie Sie aufteilen möchten: nach Zeilenanzahl (z. B. 1000 Zeilen pro Datei) oder nach Dateigröße (z. B. 10 MB pro Datei). Der Aufteiler verarbeitet jede Zeile unabhängig und bewahrt die Integrität jedes JSON-Datensatzes.

Nach dem Aufteilen können Sie jeden Teil einzeln herunterladen oder 'Alle als ZIP herunterladen' verwenden, um alle Teile in einem einzigen Archiv zu erhalten. Jede Ausgabedatei ist eine gültige JSONL-Datei, die sofort verwendet werden kann.

Was ist JSONL-Aufteilung?

JSONL-Aufteilung ist der Prozess, eine große JSONL (JSON Lines)-Datei in mehrere kleinere Dateien aufzuteilen, von denen jede eine Teilmenge der Originaldatensätze enthält. Da jede Zeile in einer JSONL-Datei ein unabhängiges JSON-Objekt ist, ist das Aufteilen unkompliziert und bricht keinen Datensatz.

Dies ist wesentlich bei der Arbeit mit Machine-Learning-Plattformen mit Upload-Größenbeschränkungen, Batch-APIs, die eine maximale Anzahl von Anfragen pro Batch akzeptieren, oder Datenpipelines, die mit kleineren Eingabedateien besser funktionieren. Das Aufteilen ermöglicht es Ihnen, Daten in überschaubaren Stücken zu verarbeiten, ohne den Inhalt zu verändern.

Häufige Anwendungsfälle

OpenAI Batch API-Limits

Große JSONL-Dateien aufteilen, um die Größenbeschränkungen der OpenAI Batch API einzuhalten (100 MB pro Datei, 50.000 Anfragen pro Batch).

ML-Trainingsdaten-Partitionierung

Große Trainingsdatensätze in Train/Validation/Test-Splits oder gleichgroße Teile für verteiltes Training aufteilen.

Parallele Verarbeitung

JSONL-Dateien in Teile für die parallele Verarbeitung über mehrere Worker, Threads oder Serverless-Funktionen aufteilen.

Upload-Größenbeschränkungen

Große JSONL-Exporte in kleinere Dateien aufteilen, die in Plattform-Upload-Limits passen (AWS S3 Multipart, GitHub, E-Mail-Anhänge).

Inkrementelles Laden von Daten

Große Datensätze in kleinere Batches für inkrementelles Laden in Datenbanken oder Data Warehouses aufteilen, um Timeouts zu vermeiden.

Versionskontrollfreundlich

Massive JSONL-Datendateien in kleinere Teile für Git-Versionskontrolle aufteilen, um Warnungen bei großen Dateien zu vermeiden und die Diff-Lesbarkeit zu verbessern.

Häufige Fehler & Lösungen

Aufteilung erzeugt leere Dateien

Dies kann passieren, wenn der Wert für Zeilen pro Datei größer als die Gesamtzahl der Zeilen ist. Reduzieren Sie die Anzahl der Zeilen pro Datei oder verwenden Sie stattdessen die größenbasierte Aufteilung.

Größenbasierte Aufteilung erzeugt ungleichmäßige Teile

Bei der Aufteilung nach Größe kann der letzte Teil kleiner als die Zielgröße sein, da Zeilen niemals mitten in einem Datensatz getrennt werden. Jede Datei enthält garantiert nur vollständige JSON-Zeilen.

Browser wird bei sehr großen Dateien langsam

Bei Dateien über 500 MB kann der Browser während der Verarbeitung langsam werden. Erwägen Sie, die Datei mit Kommandozeilentools wie 'split' oder 'wc -l' für extrem große Datensätze aufzuteilen und verwenden Sie dann dieses Tool zur Überprüfung.

Häufig gestellte Fragen

Wie teilt dieser JSONL-Splitter Dateien auf?

Ja. Die gesamte Aufteilung findet lokal in Ihrem Browser mit JavaScript statt. Es werden keine Daten an einen Server gesendet. Ihr JSONL-Inhalt verlässt niemals Ihr Gerät.

Kann ich JSONL nach Dateigröße (MB) statt nach Zeilenanzahl aufteilen?

Es gibt kein hartes Limit. Der Aufteiler kann Dateien von mehreren hundert Megabyte verarbeiten. Die Leistung hängt von Ihrem Browser und Gerätespeicher ab.

Lädt dieser JSONL-Splitter meine Daten hoch?

Ja. Datensätze werden sequentiell aufgeteilt. Die erste Datei enthält die ersten N Zeilen, die zweite Datei enthält die nächsten N Zeilen und so weiter. Keine Datensätze werden umgeordnet oder dupliziert.

Wie werden die aufgeteilten Dateien benannt?

Derzeit können Sie einen Aufteilungsmodus gleichzeitig wählen. Wenn Sie beide Einschränkungen benötigen, teilen Sie zuerst nach der restriktiveren auf und überprüfen Sie dann, ob die resultierenden Dateien beide Anforderungen erfüllen.

Kann ich NDJSON-Dateien mit diesem Tool aufteilen?

Leere Zeilen bleiben beim Aufteilen erhalten. Wenn Ihre JSONL-Datei leere Zeilen zwischen den Datensätzen hat, erscheinen diese in den Ausgabedateien an ihren ursprünglichen Positionen. Verwenden Sie unseren JSONL-Validator, um leere Zeilen vor dem Aufteilen bei Bedarf zu bereinigen.

Wie führe ich aufgeteilte JSONL-Dateien wieder zusammen?

Ja. Da jede aufgeteilte Datei eine gültige JSONL-Datei ist, können Sie sie verketten, um das Original wiederherzustellen. Auf der Kommandozeile verwenden Sie 'cat part_*.jsonl > merged.jsonl'. Sie können auch unsere JSONL-Tools verwenden, um Dateien zu kombinieren.

Gibt es eine maximale Eingabedateigröße?

Aufgeteilte Dateien werden mit einer fortlaufenden Teilnummer benannt (z. B. part_001.jsonl, part_002.jsonl). Beim Herunterladen als ZIP sind alle Teile in einem einzigen Archiv enthalten.

Bleibt beim Aufteilen die ursprüngliche Zeilenreihenfolge erhalten?

Die größenbasierte Aufteilung sammelt Zeilen an, bis der Zielgrößenschwellenwert erreicht ist. Die aktuelle Datei wird geschlossen und eine neue beginnt mit der nächsten Zeile. Zeilen werden niemals über Dateien aufgeteilt, sodass jeder Teil leicht über oder unter der Zielgröße liegen kann.

JSONL merger/OpenAI Batch API JSONL format/large JSONL files guide/JSONL validator/online JSONL tools
JSONL Splitter — Große JSONL-Dateien nach Zeilen oder Grö...