LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

O artigo apresenta o LINGOLY-TOO, um novo benchmark de raciocínio linguístico que utiliza obfuscação ortográfica para isolar a capacidade de raciocínio dos modelos de linguagem, demonstrando que seu desempenho cai significativamente quando dependem de conhecimento prévio em vez de lógica pura.

Jude Khouja, Lingyi Yang, Karolina Korgul, Simeon Hellsten, Vlad A. Neacsu, Harry Mayne, Ryan Othniel Kearns, Andrew M. Bean, Adam Mahdi

Publicado 2026-03-04
📖 3 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

🧠 O Grande Problema: A "Cola" vs. O "Cérebro"

Imagine que você está testando a inteligência de um aluno para ver se ele sabe raciocinar (resolver problemas novos) ou se ele apenas decorou as respostas do livro didático.

O problema é que os modelos de Inteligência Artificial (como o GPT-5 ou o Claude) são como alunos que leram toda a internet. Quando você faz uma pergunta difícil sobre uma língua estrangeira, eles muitas vezes não "pensam" na lógica. Em vez disso, eles consultam sua memória gigantesca e dizem: "Ah, eu já vi essa língua antes! A resposta é X!".

Isso infla a nota deles. Parece que são gênios da lógica, mas na verdade, eles só estão usando "cola" (memória).

🕵️‍♂️ A Solução: O "Disfarce" (LINGOLY-TOO)

Os autores criaram um novo teste chamado LINGOLY-TOO. A ideia é genial e simples: mudar a "roupa" da pergunta, mas manter a lógica intacta.

Pense em um quebra-cabeça de palavras em uma língua que você nunca viu (como o Turco ou o Navajo).

  1. O Teste Original: O aluno vê as palavras escritas normalmente. O modelo de IA olha e diz: "Eu conheço essa palavra! É 'cachorro'.". Nota alta, mas sem raciocínio.
  2. O Teste LINGOLY-TOO: Os pesquisadores pegam as mesmas palavras e trocam as letras por um código estranho.
    • Em vez de "A", escrevem "Z".
    • Em vez de "B", escrevem "Q".
    • Mas eles fazem isso de forma inteligente: se a regra é que "A" sempre vira "E" no final da frase, no código, "Z" sempre virará "Q".

A Analogia da Chave e Fechadura:
Imagine que a lógica do problema é uma chave que abre uma fechadura.

  • No teste original, a fechadura tem o formato de uma chave comum. O modelo de IA, que tem milhões de chaves na memória, acha a certa rapidamente.
  • No teste LINGOLY-TOO, eles pintam a fechadura de preto e mudam o formato levemente. A chave antiga não entra mais. Agora, o modelo é obrigado a medir a fechadura, entender o mecanismo interno e criar uma nova chave do zero. Se ele não conseguir fazer isso, ele falha.

📉 O Que Aconteceu? (Os Resultados)

Quando eles aplicaram esse "disfarce" (obfuscação):

  • A nota dos modelos caiu drasticamente. Eles foram de uma nota de 0,59 para 0,48.
  • Isso prova que, no teste original, eles estavam usando a memória (a "cola") para tirar notas altas.
  • Mesmo os modelos mais avançados, que são treinados para "pensar" mais, ainda tiveram dificuldade. Eles conseguiram melhorar um pouco, mas ainda dependiam muito de padrões que já conheciam.

🌍 Por que isso importa?

O artigo mostra que, para línguas muito comuns (como Inglês ou Espanhol), a IA é muito boa porque "leu" muito sobre elas. Mas, quando o teste é em uma língua rara e o texto é "disfarçado", a IA perde o poder da memória e precisa usar o raciocínio puro.

O resultado é um pouco preocupante: os modelos ainda não são mestres do raciocínio lógico real. Eles são mestres em encontrar atalhos.

🎯 Resumo em uma frase:

O LINGOLY-TOO é como um teste de "olho de águia" que troca a roupa dos problemas de lógica linguística para forçar a Inteligência Artificial a parar de usar a memória e começar a usar o cérebro de verdade, revelando que, por enquanto, elas ainda dependem muito de "cola".