Diviseur JSONL

Divisez les grands fichiers JSONL (JSON Lines) en morceaux plus petits par nombre de lignes ou taille de fichier. 100% côté client, vos données ne quittent jamais votre navigateur.

Entrée JSONL

Déposez un fichier .jsonl ici, ou cliquez pour parcourir

Supporte .jsonl, .ndjson, .json, .txt

Options de division

Comment diviser des fichiers JSONL

Téléchargez votre grand fichier JSONL ou collez son contenu dans la zone de saisie. L'outil accepte les fichiers .jsonl, .ndjson, .json et .txt de toute taille.

Choisissez comment vous souhaitez diviser : par nombre de lignes (par ex. 1000 lignes par fichier) ou par taille de fichier (par ex. 10 Mo par fichier). Le diviseur traite chaque ligne indépendamment, préservant l'intégrité de chaque enregistrement JSON.

Une fois divisé, téléchargez chaque partie individuellement ou utilisez 'Tout télécharger en ZIP' pour obtenir toutes les parties dans une seule archive. Chaque fichier de sortie est un fichier JSONL valide prêt à l'emploi.

Qu'est-ce que la division JSONL ?

La division JSONL est le processus de découpage d'un grand fichier JSONL (JSON Lines) en plusieurs fichiers plus petits, chacun contenant un sous-ensemble des enregistrements originaux. Puisque chaque ligne d'un fichier JSONL est un objet JSON indépendant, la division est simple et ne casse jamais aucun enregistrement.

C'est essentiel lorsque vous travaillez avec des plateformes de machine learning qui ont des limites de taille de téléversement, des API batch qui acceptent un nombre maximum d'enregistrements par requête, ou des pipelines de données qui fonctionnent mieux avec des fichiers d'entrée plus petits. La division vous permet de traiter les données en morceaux gérables sans modifier le contenu.

Cas d'utilisation courants

Limites de l'API Batch OpenAI

Divisez les grands fichiers JSONL pour respecter les limites de taille de l'API Batch OpenAI (100 Mo par fichier, 50 000 requêtes par lot).

Partitionnement de données d'entraînement ML

Divisez les grands datasets d'entraînement en ensembles train/validation/test ou en morceaux de taille égale pour l'entraînement distribué.

Traitement parallèle

Divisez les fichiers JSONL en morceaux pour le traitement parallèle sur plusieurs workers, threads ou fonctions serverless.

Limites de taille de téléversement

Découpez les grands exports JSONL en fichiers plus petits qui respectent les limites de téléversement des plateformes (AWS S3 multipart, GitHub, pièces jointes d'e-mail).

Chargement incrémental de données

Divisez les grands datasets en lots plus petits pour le chargement incrémental dans les bases de données ou les entrepôts de données afin d'éviter les timeouts.

Compatible avec le contrôle de version

Divisez les fichiers de données JSONL massifs en parties plus petites pour le contrôle de version Git, évitant les avertissements de gros fichiers et améliorant la lisibilité des diffs.

Erreurs courantes et solutions

La division produit des fichiers vides

Cela peut arriver si la valeur de lignes par fichier est supérieure au nombre total de lignes. Réduisez le nombre de lignes par fichier, ou utilisez la division par taille à la place.

La division par taille produit des parties inégales

Lors de la division par taille, la dernière partie peut être plus petite que la taille cible car les lignes ne sont jamais coupées en milieu d'enregistrement. Chaque fichier est garanti de ne contenir que des lignes JSON complètes.

Le navigateur ralentit avec les très gros fichiers

Pour les fichiers de plus de 500 Mo, le navigateur peut ralentir pendant le traitement. Envisagez de diviser le fichier avec des outils en ligne de commande comme 'split' ou 'wc -l' pour les datasets extrêmement volumineux, puis utilisez cet outil pour la vérification.

Questions fréquemment posées

Comment ce diviseur JSONL divise-t-il les fichiers ?

Oui. Toute la division se fait localement dans votre navigateur en JavaScript. Aucune donnée n'est envoyée à un serveur. Votre contenu JSONL ne quitte jamais votre appareil.

Puis-je diviser du JSONL par taille de fichier (Mo) au lieu du nombre de lignes ?

Il n'y a pas de limite stricte. Le diviseur peut gérer des fichiers de plusieurs centaines de mégaoctets. Les performances dépendent de votre navigateur et de la mémoire de votre appareil.

Ce diviseur JSONL téléverse-t-il mes données ?

Oui. Les enregistrements sont divisés séquentiellement. Le premier fichier contient les N premières lignes, le deuxième fichier contient les N lignes suivantes, et ainsi de suite. Aucun enregistrement n'est réordonné ou dupliqué.

Comment les fichiers de sortie découpés sont-ils nommés ?

Actuellement, vous pouvez choisir un seul mode de division à la fois. Si vous avez besoin des deux contraintes, divisez d'abord par la plus restrictive, puis vérifiez que les fichiers résultants respectent les deux exigences.

Puis-je diviser des fichiers NDJSON avec cet outil ?

Les lignes vides sont préservées lors de la division. Si votre fichier JSONL a des lignes vides entre les enregistrements, elles apparaîtront dans les fichiers de sortie à leurs positions originales. Utilisez notre Validateur JSONL pour nettoyer les lignes vides avant la division si nécessaire.

Comment fusionner des fichiers JSONL divisés ?

Oui. Puisque chaque fichier divisé est un fichier JSONL valide, vous pouvez les concaténer pour reconstruire l'original. En ligne de commande, utilisez 'cat part_*.jsonl > merged.jsonl'. Vous pouvez également utiliser nos outils JSONL pour combiner les fichiers.

Y a-t-il une taille maximale de fichier en entrée ?

Les fichiers divisés sont nommés avec un numéro de partie séquentiel (par ex. part_001.jsonl, part_002.jsonl). Lors du téléchargement en ZIP, toutes les parties sont incluses dans une seule archive.

La division préserve-t-elle l'ordre original des lignes ?

La division par taille accumule les lignes jusqu'à ce que le seuil de taille cible soit atteint. Le fichier en cours est fermé et un nouveau commence avec la ligne suivante. Les lignes ne sont jamais coupées entre les fichiers, chaque partie peut donc être légèrement au-dessus ou en dessous de la taille cible.

JSONL merger/OpenAI Batch API JSONL format/large JSONL files guide/JSONL validator/online JSONL tools
Diviseur JSONL — Diviser de gros fichiers JSONL par ligne...