Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Este artigo apresenta uma avaliação automatizada que compara a tradução de textos mandarinos para inglês por modelos de linguagem (como GPT-4o e DeepSeek) e pelo Google Translate, revelando que, embora os LLMs se destaquem em notícias, ainda enfrentam desafios significativos na preservação de nuances culturais e referências clássicas em textos literários.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra

Publicado 2026-03-12
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de tradutores muito especiais: alguns são máquinas clássicas (como o Google Tradutor) e outros são "super-inteligências" recentes (como o GPT-4 e o DeepSeek). O objetivo deste estudo foi ver quem traduz melhor do Chinês para o Inglês, mas não apenas traduzindo palavras soltas. Eles queriam saber: quem captura a alma, o humor e a cultura do texto original?

Para fazer isso, os pesquisadores usaram uma "caixa de ferramentas" digital que funciona como um detetive de sentimentos e significados. Eles pegaram três tipos de textos muito diferentes e viram como cada tradutor se saiu.

Aqui está a explicação simples, usando analogias do dia a dia:

1. Os Três "Campos de Batalha" (Os Textos)

Os pesquisadores escolheram três tipos de textos para testar os tradutores, como se fossem três níveis de dificuldade em um jogo:

  • O Nível Fácil: Notícias (Global Times)

    • A analogia: Imagine traduzir um manual de instruções ou um boletim meteorológico. É direto, factual e não tem muitas "pegadinhas" culturais.
    • O resultado: Todos os tradutores (Google, GPT, DeepSeek) foram excelentes. Foi como um grupo de alunos estudando para uma prova fácil; quase todos tiraram nota máxima. A diferença entre eles foi mínima.
  • O Nível Médio: Romance Moderno (Sorgo Vermelho)

    • A analogia: Agora, imagine traduzir um livro de ficção cheio de gírias, emoções fortes e histórias de guerra. É como tentar traduzir uma conversa animada num bar, onde o tom de voz importa tanto quanto as palavras.
    • O resultado: Aqui, as máquinas começaram a tropeçar um pouco. Elas entendiam a história, mas às vezes perdiam a "vibe" ou o sotaque regional. O DeepSeek (uma IA chinesa) se saiu melhor, como se fosse um nativo que entende as piadas internas.
  • O Nível Impossível: Literatura Clássica (Sonho da Câmara Vermelha)

    • A analogia: Este é o "nível mestre". É como tentar traduzir um poema antigo cheio de metáforas, referências históricas de 300 anos atrás e jogos de palavras que só funcionam no chinês. É como tentar explicar uma piada de stand-up comedy de 1800 para alguém que nunca viu um palhaço.
    • O resultado: Foi aqui que a mágica (e o desastre) aconteceu.
      • O Google Tradutor e o GPT-4 muitas vezes "mataram" a poesia. Eles traduziram as palavras, mas perderam o significado profundo. Foi como tentar desenhar um quadro de Van Gogh usando apenas linhas retas e cores básicas.
      • O DeepSeek brilhou. Ele conseguiu manter a elegância e as nuances culturais muito melhor que os outros. Foi como se ele tivesse lido o livro original e entendido o coração do autor, não apenas as palavras.

2. A "Caixa de Ferramentas" do Detetive (Como eles mediram?)

Em vez de apenas ler e julgar (o que demora muito), os pesquisadores usaram um sistema automatizado com duas lentes principais:

  • A Lente do Significado (Semântica): Pergunta: "A tradução diz a mesma coisa que o original?"
    • Resultado: Nas notícias, todos acertaram 95%. Na literatura clássica, a maioria caiu para 70-75%, mas o DeepSeek ficou perto de 77%.
  • A Lente do Sentimento (Emoção): Pergunta: "A tradução faz o leitor sentir o mesmo que o leitor original?"
    • O problema: As máquinas tendem a ser "otimistas demais". Quando o texto original é triste, ambíguo ou irônico, as máquinas muitas vezes transformam tudo em algo positivo ou muito óbvio.
    • Exemplo: Se um personagem está com um humor "amargo e melancólico", o tradutor humano entende isso. A máquina, às vezes, acha que é apenas "triste" ou até "engraçado". O DeepSeek foi o melhor em não estragar esse equilíbrio emocional.

3. As Descobertas Principais (O Veredito)

  • Notícias são fáceis: Para notícias, qualquer IA moderna funciona muito bem. O Google Tradutor ainda é muito forte aqui.
  • Cultura é difícil: O maior desafio não é a gramática, é a cultura. Traduzir provérbios antigos, referências históricas e metáforas é onde as IAs ainda sofrem.
  • O Vencedor (DeepSeek): O modelo DeepSeek (uma IA chinesa) mostrou que, quando se trata de entender a própria cultura de origem, ele tem uma vantagem. Ele consegue "sentir" o texto melhor do que os modelos ocidentais (GPT-4 e Google).
  • O Perigo da "Simplificação": As máquinas tendem a simplificar o que é complexo. Se um texto é ambíguo (pode ser interpretado de várias formas), a máquina escolhe uma única resposta, perdendo a beleza da dúvida e da nuance que a literatura exige.

Resumo Final

Pense nas IAs como alunos muito inteligentes, mas inexperientes.

  • Em matérias exatas (notícias), eles são gênios.
  • Em literatura moderna, eles são bons, mas precisam de ajuda.
  • Em clássicos antigos, eles ainda estão aprendendo a "ler entre as linhas".

O estudo mostra que, embora a tecnologia tenha avançado muito, traduzir a alma de uma cultura (especialmente a chinesa para a inglesa) ainda é um desafio que exige a sensibilidade humana. O DeepSeek deu um passo à frente, mas a tradução perfeita de literatura clássica ainda é uma fronteira que as máquinas estão apenas começando a explorar.