Coleta, limpeza e normalização de dados

Coletamos textos de fontes públicas e privadas. Removemos duplicatas e ruídos, normalizamos codificações e formatos. Em seguida, selecionamos no corpus o domínio de sua escolha. Trabalhamos com uma grande variedade de idiomas, inclusive idiomas com poucos recursos, nos quais acumulamos uma grande experiência. O resultado é um conjunto de dados de referência que nos permite treinar LLMs ou modelos de MT de forma mais rápida, econômica e precisa. Nossos fluxos de dados já são usados no projeto OpenEuroLLM, no qual a Prompsit é responsável pela coleta e preparação de corpora multilíngues

Solicitar demonstração
Data services illustration
Data services illustration

Alinhamento de segmentos paralelos

Usando nossas ferramentas especializadas, podemos analisar corpora de textos de grandes volumes qualitativa e quantitativamente. Avalia as principais métricas, como a proporção de segmentos exclusivos em um corpus, o volume de dados pessoais (PII), a distribuição de tipologias textuais, o comprimento médio e mediano de frases ou documentos e mais de uma dúzia de parâmetros adicionais. Nossos relatórios mostram quais partes precisam ser limpas ou enriquecidas e o ajudam a priorizar as próximas etapas, economizando tempo e orçamento na preparação dos dados. Essa ferramenta já comprovou sua confiabilidade no projeto HPLT, onde foi usada para auditar corpora com bilhões de documentos e segmentos. Ela está pronta para fazer o mesmo com seus dados

Obter corpus de amostra

Análise de qualidade e avaliação

O Prompsit Dataset Insights é uma ferramenta proprietária desenvolvida pela nossa equipa para analisar corpora textuais. Avalia métricas-chave como a proporção de segmentos únicos, o volume de dados pessoais potenciais (PII), a distribuição de etiquetas de domínio, o comprimento médio e mediano das frases, e mais de uma dúzia de outros parâmetros. O relatório destaca áreas ruidosas, mostra quais partes devem ser limpas ou enriquecidas e ajuda-o a priorizar próximos passos — poupando tempo e orçamento na preparação de dados. Esta ferramenta já provou a sua fiabilidade no projeto HPLT, onde a Prompsit auditou corpora com milhares de milhões de segmentos — e está pronta para fazer o mesmo com os seus dados.

Descarregar modelo de relatório
Data services illustration
Data services illustration

Enriquecimento e geração de dados sintéticos

Nossos processos estão prontos para adicionar metadados valiosos aos dados existentes e para adicionar novos dados sintéticos para complementar os dados existentes em domínios especializados ou idiomas com poucos recursos. Usando combinações cuidadosas de modelos de linguagem massiva (LLM) e tradução automática neural (NMT), anotamos dados ou geramos novos dados e aplicamos filtros automáticos baseados em regras para selecionar apenas aqueles que atendem ao estilo, à terminologia e à cobertura de domínio exigidos. Esse método permite que você enriqueça e dimensione seu conjunto de dados rapidamente, tornando-o adequado para treinamento, avaliação ou testes internos.

Enriquecer o corpus ou gerar dados sintéticos

Conformidade com a legislação da UE

Seguimos cuidadosamente os requisitos da UE para alinhar nossos dados e modelos às normas atuais. Isso inclui documentação de fontes de dados, detecção e possível anonimização de dados pessoais (PII) e rastreabilidade do processamento de dados, etc. Dessa forma, garantimos que seu modelo seja eficaz e legalmente implementável na União Europeia.

Garantir conformidade legal
Data services illustration
Dados Treinamento Finanças Saúde Legal | Datasets IA RGPD | Prompsit