A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está pedindo a um amigo para traduzir uma piada do inglês para o sueco. Se o amigo for um robô antigo, ele provavelmente traduziria palavra por palavra, mantendo a estrutura da frase original. O resultado? A piada perde o sentido, soa estranha e ninguém ri. Esse fenômeno tem um nome chique: "Translationese" (ou "tradutiquês"). É quando um texto traduzido carrega tantas marcas da língua original que parece artificial, como um estrangeiro tentando falar a língua local com sotaque forte e gramática travada.

Este artigo é como um detetive linguístico investigando por que os robôs (Inteligências Artificiais) ainda cometem esse erro, mesmo sendo super inteligentes.

Aqui está a história, explicada de forma simples:

1. O Problema: O "Sotaque" do Tradutor Robô

Os pesquisadores (Jenny, Anja e Marcel) notaram que, embora as IAs modernas (como o GPT-5) sejam ótimas, elas ainda tendem a traduzir de forma muito literal.

A Analogia: Pense na tradução como um copiador de desenho. Se você pede para copiar um desenho de um gato, o robô desenha o gato exatamente como está no papel original, mesmo que o papel original esteja torto. Ele não "pensa" em como um gato sueco seria desenhado naturalmente. Ele apenas segue as linhas do original.
O Resultado: O texto em sueco fica gramaticalmente correto, mas soa como se fosse escrito por alguém que nunca nasceu na Suécia. Faltam expressões idiomáticas, o tom está errado e as palavras são escolhidas de forma estranha.

2. A Solução: O "Laboratório de Tradução" (O Dataset)

Para estudar isso, os autores criaram um banco de dados especial. Eles pegaram 600 frases de legendas de filmes (OpenSubtitles), traduziram com robôs e depois pediram para humanos nativos suecos reescreverem as frases de forma natural.

O que eles fizeram: Criaram "pares mínimos". Imagine duas versões da mesma frase:
1. Versão Robô: "Eu sou um tradutor" (soa estranho, como se faltasse algo).
2. Versão Humana: "Eu sou tradutor" (soa natural e fluido).
Eles marcaram cada erro com etiquetas, como se fossem adesivos de cores:
- 🔴 Erro Grave: Perdeu o sentido (ex: traduzir "dope watch" como "relógio de drogas" em vez de "relógio legal").
- 🟡 Erro Sutil: A palavra está certa, mas soa estranha (ex: usar uma palavra formal demais em uma conversa de bar).
- 🔵 Causa: Foi porque o robô traduziu uma gíria literalmente? Ou porque esqueceu uma palavra?

3. A Investigação: Testando os Robôs

Eles colocaram vários modelos de IA (de tamanhos diferentes, como o LLaMA, EuroLLM e Gemma) para escolher entre a versão do robô e a versão humana.

O que eles descobriram?

O Viés da Tradução Literal: Mesmo quando a IA não estava sendo instruída a traduzir (apenas pediam para ela ler a frase), ela ainda preferia a versão estranha do robô.
A Armadilha do Contexto: Quando mostravam a frase original em inglês junto com a tradução, a IA ficava ainda mais "cega" para a naturalidade. Ela ficava obcecada em seguir o inglês, como um aluno que cola no caderno do colega em vez de pensar na resposta.
O Milagre do Contexto Longo: A única coisa que ajudou um pouco foi dar à IA mais contexto (ler frases anteriores da conversa). Isso ajudou a IA a entender o "clima" da conversa e escolher uma tradução mais humana em alguns casos, mas o problema principal (o sotaque robótico) continuou lá.

4. A Lição Final

O artigo conclui que, embora as IAs estejam ficando melhores, elas ainda têm um "vício" de tradução literal. Elas aprendem muito com dados que já são traduções ruins, o que cria um ciclo vicioso.

A Metáfora do Espelho:
Imagine que a IA é um espelho. Se você olhar para um espelho sujo (dados de treinamento cheios de traduções ruins), o reflexo (a tradução final) também sairá sujo. Os autores estão dizendo: "Precisamos limpar o espelho e ensinar a IA a não apenas copiar o que vê, mas a reimaginar como as coisas soariam se fossem faladas nativamente".

Por que isso importa?

Se quisermos que a IA fale sueco (ou qualquer outra língua) de verdade, e não apenas como um tradutor de dicionário, precisamos de mais dados como esse. Precisamos ensinar as máquinas a entender que traduzir não é trocar palavras, é trocar ideias e sentimentos de uma cultura para outra.

Em resumo: As IAs ainda são ótimas em traduzir o que está escrito, mas péssimas em traduzir o que está sentido. Este trabalho é um passo gigante para consertar isso.

Each language version is independently generated for its own context, not a direct translation.

Aqui está um resumo técnico detalhado do artigo "A Dataset for Probing Translationese Preferences in English-to-Swedish Translation", apresentado em português:

1. O Problema

O artigo aborda o fenômeno do translationese (traduzês), que se refere às marcas linguísticas deixadas pela língua de origem em textos traduzidos, tornando-os distintos de textos originalmente escritos na língua-alvo. Embora o translationese não seja necessariamente um sinal de baixa qualidade, ele resulta em textos mais simplificados, com menor riqueza lexical e morfológica, e menos naturais.

O problema central identificado é que os Modelos de Linguagem (LLMs), mesmo os mais avançados, tendem a produzir traduções que preservam excessivamente a estrutura e o vocabulário da fonte (tradução literal), em vez de gerar output idiomático e natural. Além disso, uma grande parte dos dados de treinamento de LLMs consiste em traduções, o que pode perpetuar e amplificar esse viés. Não existia, até o momento, um conjunto de dados aberto e gratuito que contrastasse especificamente frases com translationese com alternativas idiomáticas para o sueco, permitindo uma avaliação intrínseca das preferências dos modelos.

2. Metodologia

Construção do Dataset

Os autores criaram um novo dataset contendo 600 pares de sentenças extraídas do corpus OpenSubtitles (diálogos falados). Para cada sentença em inglês:

Tradução de Máquina: Gerada por dois sistemas:
- OPUS-MT: Um sistema de tradução neural especializado (não baseado em LLM).
- GPT-5: Um modelo LLM de última geração (na época da publicação).
Alternativa Humana: Uma tradução idiomática criada por anotadores nativos suecos.
Contexto: Inclui a sentença fonte em inglês e, em alguns casos, contexto prévio (até 10 sentenças).

Sistema de Anotação

Foi desenvolvido um sistema de etiquetagem de erros personalizado (diferente do padrão MQM, focado em nuances conversacionais) para classificar os problemas nas traduções de máquina. As categorias incluem:

Erros Maiores: Gramática (GR), Palavras Faltantes (SAK), Escolha de Palavra Incorreta (LF), Perda de Significado (BET).
Erros Menores: Preferência Lexical (PR - soa não natural), Semântica (SEM - mudança sutil de significado).
Tags Descritivas: Identificam a causa, como Idioms (ID), Gírias (SL), Domínio Específico (ST) e Tradução Direta (DIR).

Experimentos

Os autores avaliaram a preferência intrínseca de vários LLMs (incluindo famílias LLaMA-3, EuroLLM e Gemma, com tamanhos variando de 270M a 12B parâmetros) utilizando uma configuração de pares mínimos.

Configuração 1 (Sem Contexto de Tradução): O modelo recebe apenas a sentença em sueco e deve escolher a variante mais provável (idiomática vs. translationese).
Configuração 2 (Com Contexto de Tradução): O modelo recebe a sentença em inglês e é instruído a traduzir, com variações de 0 a 10 sentenças de contexto prévio.
Métrica: Utilizou-se a probabilidade média normalizada por comprimento (MeanLP) para calcular a precisão (frequência de escolha da versão humana) e a diferença de log-probabilidade ( $\Delta$ LP).

3. Principais Contribuições

Primeiro Dataset Aberto para Sueco: Disponibilização do primeiro conjunto de dados gratuito e licenciado permissivamente que contrasta explicitamente translationese com alternativas idiomáticas em inglês-sueco.
Análise Granular de Erros: O dataset inclui etiquetas detalhadas que permitem analisar não apenas se o modelo erra, mas por que erra (ex: gírias, expressões idiomáticas, domínio jurídico).
Benchmark para Avaliação de Naturalidade: Oferece uma ferramenta para medir a capacidade dos LLMs de produzir texto natural em línguas não-inglesas, indo além da precisão semântica tradicional.
Repositório Completo: Inclui o código para reprodução dos experimentos e as anotações completas no GitHub e Hugging Face.

4. Resultados

Viés para o Translationese: Todos os modelos avaliados demonstraram uma forte tendência a preferir as frases com translationese (tradução literal) em vez das alternativas idiomáticas humanas. Mesmo os modelos maiores (como Gemma-12B) raramente escolheram a versão humana como a mais provável na maioria dos casos.
Impacto do Contexto de Tradução:
- Quando o modelo é instruído a traduzir (recebendo a fonte em inglês), o viés para a tradução literal aumenta significativamente. A presença da sentença fonte "puxa" o modelo para uma tradução mais próxima da estrutura original.
- Remoção do Contexto: Quando a sentença fonte é omitida e o modelo apenas avalia a frase em sueco, a preferência pela alternativa humana aumenta, indicando que o modelo conhece a forma idiomática, mas é enviesado pela presença da fonte.
- Comprimento do Contexto: Adicionar contexto prévio (1 a 10 sentenças) ajuda a reduzir o viés para o translationese, permitindo que o modelo interprete melhor a intenção, embora o viés permaneça forte.
Desempenho dos Modelos:
- GPT-5 vs. OPUS-MT: As traduções do GPT-5 foram geralmente mais próximas das humanas e contiveram menos erros graves (especialmente em preferências lexicais e omissões) do que o OPUS-MT, mas ainda assim foram distinguíveis de textos humanos nativos.
- Tamanho do Modelo: Modelos maiores tendem a performar melhor na preferência por alternativas humanas em cenários sem contexto de tradução, mas em cenários de tradução (Human > GPT), modelos maiores às vezes pioraram, preferindo mais as traduções do GPT-5.
Tipos de Erros:
- Erros de Tradução Direta (DIR) e Gírias (SL) foram os mais difíceis de corrigir, especialmente quando o contexto de tradução estava presente.
- Erros gramaticais claros (GR) e omissões (SAK) foram menos preferidos pelos modelos em relação às versões humanas, sugerindo que erros óbvios são mais fáceis de evitar do que nuances idiomáticas.

5. Significado e Conclusão

O estudo demonstra que, apesar dos avanços dos LLMs, eles ainda sofrem de um viés significativo em direção à literalidade quando traduzem, especialmente quando expostos à língua fonte. Isso limita a naturalidade do output em línguas não-inglesas.

O dataset e os resultados fornecem uma base crítica para:

Desenvolver técnicas de fine-tuning e prompting que mitigem o viés de tradução literal.
Criar modelos que priorizem a naturalidade e a adequação cultural em vez da fidelidade estrutural à fonte.
Entender que a exposição à sentença fonte durante a inferência pode ser contraproducente para a geração de texto idiomático.

O trabalho conclui que, para avançar rumo a traduções verdadeiramente naturais, é necessário analisar e corrigir sistematicamente o translationese nos dados de treinamento e nos processos de inferência dos modelos.