Mesclador JSONL
Combine múltiplos arquivos JSONL (JSON Lines) em um único arquivo. Reordene, deduplique e valide linhas. 100% no lado do cliente, seus dados nunca saem do seu navegador.
Arquivos de Entrada
Arraste arquivos .jsonl aqui, ou clique para selecionar múltiplos arquivos
Suporta .jsonl, .ndjson, .json, .txt
Opções de Mesclagem
Arquivos de Entrada
Arraste arquivos .jsonl aqui, ou clique para selecionar múltiplos arquivos
Suporta .jsonl, .ndjson, .json, .txt
Opções de Mesclagem
Saída Mesclada
Arraste ou selecione arquivos JSONL para mesclar
Como Mesclar Arquivos JSONL
Selecione ou arraste e solte múltiplos arquivos JSONL na área de upload. Cada arquivo é lido inteiramente no seu navegador — nenhum dado é enviado para nenhum servidor. Os arquivos podem estar em formato .jsonl, .ndjson, .json ou .txt.
Após o upload, você pode reordenar os arquivos usando as setas para cima/baixo para controlar a ordem de mesclagem. Ative a deduplicação para remover linhas duplicadas baseado no conteúdo completo, ou ative a validação JSON para ignorar linhas que não são JSON válido.
A saída mesclada aparece no painel de pré-visualização mostrando as primeiras 100 linhas. Baixe o arquivo mesclado completo como um arquivo .jsonl ou copie-o para sua área de transferência. As estatísticas mostram a contagem total de linhas, tamanho do arquivo e quaisquer duplicatas ou linhas inválidas removidas.
O que é Mesclagem de JSONL?
Mesclagem de JSONL é o processo de combinar múltiplos arquivos JSONL (JSON Lines) em um único arquivo. Cada arquivo de entrada contém um objeto JSON por linha, e o mesclador concatena todas as linhas de todos os arquivos em um único arquivo de saída preservando a ordem que você especificar.
Isso é essencial ao trabalhar com datasets divididos em múltiplos arquivos — como fragmentos de dados de treinamento, exportações de logs diárias ou respostas de API em partes. A mesclagem consolida tudo em um único arquivo para processamento, análise ou upload mais fácil para plataformas que esperam uma única entrada JSONL.
Casos de Uso Comuns
Consolidação de Datasets
Combine múltiplos fragmentos de dados de treinamento JSONL em um único arquivo para upload no fine-tuning da OpenAI, HuggingFace ou outras plataformas ML.
Montagem de Pipeline de Dados
Mescle arquivos de saída de pipelines de processamento de dados paralelos em um único arquivo JSONL para consumo downstream.
Preparação de Dados de Treinamento ML
Consolide pares de prompt-completion de múltiplas fontes em um único arquivo JSONL pronto para fine-tuning de modelos.
Agregação de Arquivos de Log
Combine exportações de logs JSONL diárias ou horárias em um único arquivo para análise e busca abrangentes.
Colaboração em Equipe
Mescle arquivos de dados JSONL contribuídos por diferentes membros da equipe em um dataset unificado para análise compartilhada.
Mesclagem de Dados Analíticos
Combine dados de eventos JSONL de múltiplos serviços ou períodos de tempo para análise e relatórios unificados.
Erros Comuns e Soluções
Registros Duplicados Entre Arquivos
Ao mesclar exportações JSONL sobrepostas (ex.: logs diários com timestamps sobrepostos), duplicatas podem ocorrer. Ative a opção 'Remover duplicatas' para deduplicar automaticamente baseado no conteúdo exato da linha. Para deduplicação semântica (mesmos dados, formatação diferente), formate todos os arquivos consistentemente primeiro usando o Formatador JSONL.
Codificação Mista Entre Arquivos
Arquivos de diferentes fontes podem usar codificações de caracteres diferentes (UTF-8, UTF-8 com BOM, Windows-1252). Isso pode fazer a primeira linha de alguns arquivos falhar no parseamento JSON. Certifique-se de que todos os arquivos estejam salvos como UTF-8 sem BOM antes de mesclar.
Esquemas Inconsistentes Entre Arquivos
Arquivos JSONL de diferentes fontes podem ter estruturas de chaves diferentes. Embora o mesclador combine arquivos independentemente das diferenças de esquema, ferramentas downstream podem esperar esquemas consistentes. Valide sua saída mesclada com o Validador JSONL para garantir que cada linha é JSON válido.
Perguntas Frequentes
Como múltiplos arquivos JSONL são combinados?
Sim. Toda a mesclagem acontece localmente no seu navegador. Nenhum dado de arquivo é enviado para nenhum servidor. Seus arquivos JSONL nunca saem do seu dispositivo.
Como funciona a deduplicação de linhas?
Não há limite rígido no número de arquivos. Você pode adicionar quantos arquivos JSONL precisar. No entanto, como todos os arquivos são carregados na memória do navegador, datasets combinados muito grandes (várias centenas de MB) podem ser mais lentos dependendo do seu dispositivo.
Este mesclador faz upload dos meus arquivos?
A deduplicação compara o conteúdo completo aparado de cada linha. Se duas linhas são idênticas (mesmos caracteres, mesma ordem), a segunda ocorrência é removida. Esta é deduplicação por correspondência exata — linhas com os mesmos dados mas diferente ordenação de chaves ou espaçamento são tratadas como diferentes.
O mesclador funciona com arquivos NDJSON?
Sim. Após o upload, use os botões de seta para cima e para baixo ao lado de cada arquivo para reordená-los. A saída mesclada segue a ordem dos arquivos de cima para baixo.
Quantos arquivos posso mesclar de uma vez?
Linhas vazias e linhas contendo apenas espaços em branco são automaticamente filtradas durante a leitura do arquivo. Elas não aparecem na saída mesclada. Isso segue a especificação JSONL onde linhas em branco são ignoradas.
Posso dividir o arquivo mesclado novamente?
Sim. O mesclador combina arquivos independentemente das diferenças de esquema. Cada linha é preservada exatamente como está. Se precisar de consistência de esquema, valide ou transforme os arquivos individualmente antes de mesclar.
Posso controlar a ordem dos arquivos na mesclagem?
Sim. As linhas dentro de cada arquivo mantêm sua ordem original. Os arquivos são concatenados na ordem mostrada na lista de arquivos. Você pode ajustar a ordem dos arquivos antes de mesclar.
O mesclador funciona com arquivos de schemas diferentes?
Esta ferramenta oferece uma interface visual com upload por arrastar e soltar, reordenação de arquivos, deduplicação, validação JSON, estatísticas de contagem de linhas e pré-visualização instantânea. Diferente da concatenação manual com comandos cat ou copy, ela lida automaticamente com casos especiais como quebras de linha finais e linhas vazias.