Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

Este artigo avalia a capacidade de modelos de linguagem pré-treinados em identificar empréstimos linguísticos em 10 idiomas e conclui que, mesmo com instruções explícitas, eles falham em distinguir essas palavras do vocabulário nativo, demonstrando um viés em favor dos empréstimos e levantando preocupações para ferramentas de NLP em línguas minoritárias.

Mérilin Sousa Silva, Sina Ahmadi

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que as línguas são como grandes cozinhas. Ao longo da história, os cozinheiros de uma cultura (a língua de origem) emprestam receitas e ingredientes para os cozinheiros de outra cultura (a língua que recebe). Com o tempo, alguns desses ingredientes estrangeiros são tão bem usados que se tornam parte do cardápio diário, como se sempre tivessem pertencido àquela cozinha. Esses são os empréstimos linguísticos (ou loanwords).

O artigo que você pediu para explicar investiga uma pergunta curiosa: Os "robôs de linguagem" (Inteligências Artificiais) conseguem perceber a diferença entre um ingrediente que nasceu na cozinha local e um que foi emprestado de outra?

Aqui está a explicação do estudo, traduzida para o dia a dia:

1. O Problema: Os Robôs são "Cegos" para a Origem

Os autores do estudo pegaram vários modelos de Inteligência Artificial (como o Gemini, o GPT e o Llama) e deram a eles uma tarefa simples: "Olhe para esta frase e aponte quais palavras vieram de outra língua".

Eles testaram isso em 10 línguas diferentes, desde o Chinês e Russo até o Islandês e o Curdo do Norte.

O Resultado Surpreendente:
Os robôs falharam miseravelmente. Mesmo quando os pesquisadores deram instruções claras e exemplos, os modelos não conseguiam distinguir o que era "nativo" do que era "emprestado".

  • A Analogia: É como se você desse a um robô uma sopa mista e pedisse para ele separar o sal que nasceu na terra local do sal que foi importado. O robô, em vez de olhar a origem, apenas diz: "Hmm, tudo parece sal". Eles tendem a achar que tudo é nativo ou confundem as coisas.

2. Por que eles falham? (Os "Cegos" da Linguagem)

O estudo descobriu três grandes motivos pelos quais esses robôs têm dificuldade:

  • Confusão entre "Turista" e "Imigrante":
    • O que acontece: Às vezes, alguém fala uma palavra em inglês no meio de uma frase em português (como dizer "O meeting foi ótimo"). Isso é uma troca de código (code-switching), como um turista passando rápido.
    • O erro do robô: O robô muitas vezes acha que essa palavra de turista é um "imigrante" que já se naturalizou (um empréstimo), ou vice-versa. Eles não entendem a intenção de quem fala.
  • O Fim do "Nome Próprio":
    • O que acontece: Nomes de lugares, marcas ou siglas (como NASA, PISA, Jazz) parecem estrangeiros porque soam diferentes.
    • O erro do robô: O robô aponta o dedo para essas palavras e diz: "Isso é estrangeiro!". Mas, na verdade, são nomes próprios que já fazem parte da cultura local. O robô olha apenas para a "roupa" (a escrita) e não para a "identidade" (o significado).
  • A "Ciência" Confusa:
    • O que acontece: Palavras científicas (como "nitrato" ou "filosofia") muitas vezes vêm do latim ou grego. Elas são antigas e já estão totalmente integradas.
    • O erro do robô: Alguns robôs, ao verem a raiz latina, acham que é uma palavra nova e emprestada. Outros acham que é nativa. Eles não conseguem entender a história complexa de como uma palavra envelhece e se torna "nossa".

3. A Solução Parcial: Treinamento Específico

Os pesquisadores tentaram uma segunda abordagem: em vez de apenas pedir para o robô adivinhar (como um teste de "zero-shot"), eles treinaram os robôs com exemplos específicos, como um professor ensinando um aluno.

  • O Resultado: Funcionou muito melhor! Os modelos treinados conseguiram identificar os empréstimos com uma precisão de até 85% em algumas línguas.
  • O Limitação: Mesmo treinados, eles ainda cometem erros. Eles continuam dependendo demais de como a palavra é escrita (ortografia) e não conseguem entender o contexto social ou a intenção do falante. É como um aluno que decora a lista de palavras, mas não entende a história por trás delas.

4. Por que isso importa?

Você pode estar pensando: "E daí? É só uma palavra". Mas isso é crucial para:

  • Línguas Minoritárias: Em comunidades onde uma língua forte (como o inglês) está "invadindo" uma língua local, identificar quais palavras são nativas ajuda a preservar a cultura e a ensinar as novas gerações a valorizar sua própria língua.
  • Ferramentas Justas: Se os robôs de tradução ou correção de texto preferem sempre as palavras "emprestadas" (geralmente em inglês) em vez das nativas, eles podem apagar a riqueza cultural de línguas menores.

Conclusão em uma Frase

Os modelos de linguagem atuais são como turistas que visitam uma cidade e acham que tudo o que veem é local, sem conseguir distinguir o que é tradição antiga do que é influência recente. Eles precisam de muito mais do que apenas "ler" palavras; precisam entender a história e a cultura por trás delas para não serem "cegos" à diversidade linguística.