Avaliação MT e auditoria de prontidão

Um benchmark controlado para escolher sistemas de tradução com confiança.

A Prompsit desenha benchmarks de tradução automática reprodutíveis que comparam fornecedores e modelos personalizados em qualidade, fidelidade estrutural, latência e fiabilidade estatística.

Qualidade

Sinais humanos, LLM e métricas

Estrutura

Tags, placeholders e marcação

Latência

Testes de carga baseados em throughput

Evidência

Confiança, acordo e significância

Por que os benchmarks de MT falham

Implantações reais expõem sistemas de tradução a conteúdo, formatação e cargas que amostras aleatórias e métricas únicas não capturam.

Amostras aleatórias não refletem produção

Dados pouco representativos geram resultados demasiado otimistas que não se mantêm em produção.

Uma só pontuação esconde riscos diferentes

Uma métrica única não revela problemas de estrutura, cobertura local ou estabilidade do sistema.

Texto fluente ainda pode quebrar a interface

Tags, placeholders e variáveis podem ser alterados, removidos ou mal posicionados.

Sistemas rápidos podem falhar sob carga real

Latência e erros muitas vezes surgem apenas com concorrência e carga realistas.

Desenho de benchmark com forma de produção

Construímos datasets que espelham a produção: distribuição de idiomas, tipos de conteúdo, tamanho de pedidos, comprimento de segmentos e complexidade de formatação.O resultado é um benchmark que prevê o desempenho real.

Comparação controlada de fornecedores

As mesmas entradas, saídas cegas, fornecedores anonimizados e ordem baralhada reduzem o viés de avaliação.A Prompsit prepara pacotes de avaliação cega e analisa etiquetas humanas quando disponíveis.

Avaliação de qualidade com múltiplos sinais

Etiquetas humanas

Linguistas especialistas avaliam adequação e fluência em contexto, com pontuação orientada por rubricas.

  • Revisores específicos por locale
  • Adequação e fluência
  • Categorização de erros
  • Pontuação de confiança

Juízes LLM

Juízes LLM calibrados fornecem avaliações escaláveis e reprodutíveis.

  • Pontuação pareada e absoluta
  • Prompts alinhados com rubrica
  • Análise de concordância entre juízes
  • Concordância humano vs LLM

Métricas automáticas

Métricas padrão e personalizadas triangulam a qualidade a partir de vários ângulos.

  • COMET, BLEU, chrF, TER, METEOR
  • Métricas estruturais adicionais
  • Análise de correlação de métricas
  • Complementaridade de sinais

Fidelidade estrutural

Auditamos tags, placeholders, variáveis ICU, placeholders de estilo Rails e outros tokens protegidos.A análise baseada em alinhamento de palavras verifica que as tags envolvem as palavras traduzidas corretas.

<strong>
%{count}
{0}
||||
Preservação de tags e placeholders
Verificações de tokens ICU e Rails
Precisão de posicionamento de tags
Verificação baseada em alinhamento

Validação estatística

Quantificamos a incerteza e tornamos as diferenças significativas.Cada recomendação é apoiada por evidências.

Intervalos de confiança

IC de 95% para pontuações e métricas

Testes pareados

Testes de significância entre fornecedores

Concordância entre anotadores

Medidas de concordância interanotador

Concordância dos juízes LLM

Consistência entre juízes LLM

Humano vs LLM

Análise de correlação e concordância

Tamanho da amostra

Justificação de dimensão e poder

Latência e prontidão da infraestrutura

Submetemos os sistemas a stress em vários níveis de concorrência para medir throughput, latência p99, taxa de erro e caracteres bem-sucedidos por segundo.

Níveis de throughput (concorrência)

100

500

1K

2K

4K

Latência p99

842 ms

a 2K de concorrência

Taxa de erro

0.28%

a 2K de concorrência

Caracteres bem-sucedidos / s

12.4K

a 2K de concorrência

O que recebe

Um pacote de avaliação completo e reprodutível para apoiar a sua decisão MT.

Metodologia de benchmark

Desenho e âmbito transparentes

Dataset canónico de avaliação

Com forma de produção e versionado

Comparação de qualidade

Resultados humanos, LLM e métricos

Relatório de juiz LLM

Pontuações, acordo e análise

Análise métrica automática

Pontuações métricas e correlação

Relatório de marcação

Análise de tags e placeholders

Relatório de latência

Throughput, latência p99 e erros

Validação estatística

Testes, ICs e medidas de concordância

Exemplos de falhas

Exemplos de erro por segmento

Scripts reprodutíveis

Scripts de avaliação e análise

Torne a sua decisão de MT defensável

Um benchmark de MT fiável não é uma pontuação.É uma cadeia controlada de evidência.