Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Este trabalho apresenta o primeiro estudo de processamento de linguagem natural focado no dialeto Meenzerisch, introduzindo um dicionário digital e demonstrando que os atuais modelos de linguagem de grande escala têm desempenho muito limitado na geração e compreensão desse dialeto alemão, o que evidencia a necessidade urgente de mais recursos e pesquisas para sua preservação.

Minh Duc Bui, Manuel Mager, Peter Herbert Kann, Katharina von der Wense

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

O Título da História: "Meenz continua Meenz, mas os Robôs não falam a língua deles"

Imagine que você tem um dicionário mágico de uma cidade antiga chamada Mainz (na Alemanha). Lá, as pessoas falam um jeito especial de falar, cheio de gírias, sotaques e palavras que só os vizinhos entendem. Esse jeito de falar é chamado de Meenzerisch. É como se fosse o "código secreto" da festa de carnaval da cidade, uma tradição que dura séculos.

O problema é que esse "código" está morrendo. As crianças estão aprendendo apenas o alemão padrão (o "alemão de livro"), e as palavras antigas estão sendo esquecidas.

Os cientistas de computador (especialistas em Inteligência Artificial) pensaram: *"E se usarmos nossos super-robôs, os Modelos de Linguagem Grandes (LLMs), para salvar essa língua? Eles são inteligentes, leem tudo na internet, devem conseguir entender e falar esse sotaque, certo?"*

Foi aí que eles fizeram o experimento descrito neste papel. E a resposta foi um grande "Não".


1. O Que Eles Fizeram? (A Construção do Dicionário Digital)

Antes de testar os robôs, eles precisavam de um "manual de instruções". Como não existia um dicionário digital do Meenzerisch, eles tiveram que criar um do zero.

  • O Passo a Passo: Eles pegaram um livro físico antigo de 1966, tiraram fotos das páginas, usaram um scanner para transformar a imagem em texto (como um leitor de código de barras para palavras) e depois corrigiram os erros manualmente.
  • O Resultado: Criaram uma lista com 2.351 palavras do dialeto, cada uma com sua explicação em alemão padrão. É como se tivessem traduzido o "código secreto" para uma língua que os robôs conhecem bem.

2. O Grande Teste (Os Robôs Tentam Decifrar o Código)

Eles pegaram os maiores e mais inteligentes robôs de IA do mundo (como o Llama, o GPT, o Qwen) e deram dois desafios:

  • Desafio 1 (O Tradutor): "Aqui está uma palavra em Meenzerisch. O que ela significa em alemão padrão?"
    • Exemplo: O robô vê "Schimmes" e precisa dizer "Fome".
  • Desafio 2 (O Criador): "Aqui está uma definição em alemão padrão. Qual é a palavra em Meenzerisch?"
    • Exemplo: O robô lê "Fome" e precisa escrever "Schimmes".

3. O Resultado: Um Desastre Cômico (e Triste)

Os resultados foram chocantes. Pense em um aluno que tira 6 pontos em uma prova de 100. É isso que aconteceu.

  • No Desafio 1 (Significado): O melhor robô acertou apenas 6,27% das vezes. A média geral foi de 4,24%. Isso significa que, se você perguntasse a 100 robôs o significado de uma palavra, 96 deles dariam a resposta errada ou inventariam algo sem sentido.
  • No Desafio 2 (Criar a Palavra): Foi ainda pior. A média de acerto foi de 0,56%. Basicamente, os robôs estavam chutando. O melhor deles acertou apenas 1,51% das vezes.

A Analogia do Estrangeiro:
Imagine que você está em um restaurante no Japão e pede "sushi" em inglês. O garçom (o robô), que é um gênio em inglês, francês e espanhol, olha para você e diz: "Ah, você quer dizer 'pizza'?" ou "Você quer dizer 'sopa'?". Ele sabe o que é comida, mas não entende a cultura específica do Japão. É exatamente isso que aconteceu com o Meenzerisch. Os robôs são ótimos no "alemão padrão", mas quando chegam no "sotaque local", eles ficam perdidos.

4. Eles Tentaram Ajudar os Robôs (O "Macete")

Os cientistas não desistiram. Eles pensaram: "Talvez eles precisem de uma dica?".

  • Tentativa 1 (Few-Shot Learning): Eles deram exemplos para os robôs antes do teste. "Olha, 'Aaweiderworschd' significa 'pepino em conserva'. Agora tente essa outra...".
    • Resultado: A pontuação subiu um pouquinho (para cerca de 9%), mas ainda era muito baixa.
  • Tentativa 2 (Regras de Ouro): Eles pediram para um robô inteligente criar uma lista de regras de como o dialeto funciona (ex: "se a palavra termina em 'ele', troque por 'en'"). Eles entregaram essa lista de regras para os outros robôs usarem.
    • Resultado: Novamente, uma pequena melhora, mas nada que salvasse o dia.

5. A Lição Final

O que este estudo nos ensina?

  1. A IA não é onisciente: Mesmo os robôs mais inteligentes do mundo hoje não entendem línguas pequenas, dialetos ou culturas locais que não estão bem representadas na internet. Eles são como turistas que só conhecem as grandes cidades; quando chegam na aldeia, não sabem o que fazer.
  2. Precisamos de mais dados: Para salvar línguas como o Meenzerisch, não basta ter um robô inteligente. Precisamos "alimentar" esses robôs com muitos mais dados, dicionários e exemplos desse dialeto específico.
  3. Cultura é importante: Se não fizermos isso, corremos o risco de perder partes da nossa história e identidade. A tecnologia pode ajudar a preservar, mas ela precisa ser ensinada primeiro.

Em resumo: Os robôs são como super-heróis que têm força e velocidade, mas esqueceram de estudar a língua local. Eles tentaram salvar o dialeto de Mainz, mas falharam miseravelmente. Agora, cabe aos humanos (e aos cientistas) ensinar a eles, antes que o dialeto desapareça para sempre.