LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

Each language version is independently generated for its own context, not a direct translation.

🧠 O Grande Problema: A "Cola" vs. O "Cérebro"

Imagine que você está testando a inteligência de um aluno para ver se ele sabe raciocinar (resolver problemas novos) ou se ele apenas decorou as respostas do livro didático.

O problema é que os modelos de Inteligência Artificial (como o GPT-5 ou o Claude) são como alunos que leram toda a internet. Quando você faz uma pergunta difícil sobre uma língua estrangeira, eles muitas vezes não "pensam" na lógica. Em vez disso, eles consultam sua memória gigantesca e dizem: "Ah, eu já vi essa língua antes! A resposta é X!".

Isso infla a nota deles. Parece que são gênios da lógica, mas na verdade, eles só estão usando "cola" (memória).

🕵️‍♂️ A Solução: O "Disfarce" (LINGOLY-TOO)

Os autores criaram um novo teste chamado LINGOLY-TOO. A ideia é genial e simples: mudar a "roupa" da pergunta, mas manter a lógica intacta.

Pense em um quebra-cabeça de palavras em uma língua que você nunca viu (como o Turco ou o Navajo).

O Teste Original: O aluno vê as palavras escritas normalmente. O modelo de IA olha e diz: "Eu conheço essa palavra! É 'cachorro'.". Nota alta, mas sem raciocínio.
O Teste LINGOLY-TOO: Os pesquisadores pegam as mesmas palavras e trocam as letras por um código estranho.
- Em vez de "A", escrevem "Z".
- Em vez de "B", escrevem "Q".
- Mas eles fazem isso de forma inteligente: se a regra é que "A" sempre vira "E" no final da frase, no código, "Z" sempre virará "Q".

A Analogia da Chave e Fechadura:
Imagine que a lógica do problema é uma chave que abre uma fechadura.

No teste original, a fechadura tem o formato de uma chave comum. O modelo de IA, que tem milhões de chaves na memória, acha a certa rapidamente.
No teste LINGOLY-TOO, eles pintam a fechadura de preto e mudam o formato levemente. A chave antiga não entra mais. Agora, o modelo é obrigado a medir a fechadura, entender o mecanismo interno e criar uma nova chave do zero. Se ele não conseguir fazer isso, ele falha.

📉 O Que Aconteceu? (Os Resultados)

Quando eles aplicaram esse "disfarce" (obfuscação):

A nota dos modelos caiu drasticamente. Eles foram de uma nota de 0,59 para 0,48.
Isso prova que, no teste original, eles estavam usando a memória (a "cola") para tirar notas altas.
Mesmo os modelos mais avançados, que são treinados para "pensar" mais, ainda tiveram dificuldade. Eles conseguiram melhorar um pouco, mas ainda dependiam muito de padrões que já conheciam.

🌍 Por que isso importa?

O artigo mostra que, para línguas muito comuns (como Inglês ou Espanhol), a IA é muito boa porque "leu" muito sobre elas. Mas, quando o teste é em uma língua rara e o texto é "disfarçado", a IA perde o poder da memória e precisa usar o raciocínio puro.

O resultado é um pouco preocupante: os modelos ainda não são mestres do raciocínio lógico real. Eles são mestres em encontrar atalhos.

🎯 Resumo em uma frase:

O LINGOLY-TOO é como um teste de "olho de águia" que troca a roupa dos problemas de lógica linguística para forçar a Inteligência Artificial a parar de usar a memória e começar a usar o cérebro de verdade, revelando que, por enquanto, elas ainda dependem muito de "cola".

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os modelos de linguagem de ponta (LLMs) demonstram capacidades crescentes na resolução de problemas de raciocínio. No entanto, o artigo argumenta que o desempenho desses modelos em benchmarks existentes é frequentemente inflado. Em vez de aplicar raciocínio lógico genuíno, os modelos muitas vezes contornam o processo de dedução, recorrendo a:

Memorização: Explorar a sobreposição entre os dados de treinamento e os conjuntos de teste (contaminação de dados).
Conhecimento Prévio: Utilizar conhecimento factual ou linguístico armazenado em seus parâmetros (ex: saber que uma língua específica tem certas regras gramaticais) para responder a perguntas que deveriam exigir dedução a partir do contexto.

Isso cria uma validade de construção fraca nos benchmarks atuais: um modelo pode obter uma pontuação alta não porque é um bom raciocinador, mas porque "sabe" a resposta ou memorizou o problema. A distinção entre raciocínio simbólico e recuperação de conhecimento torna-se difusa, especialmente em línguas de alto recurso.

2. Metodologia: LINGOLY-TOO

Para abordar essa questão, os autores introduzem o LINGOLY-TOO, um novo benchmark que aplica ofuscação ortográfica baseada em templates a problemas da Olimpíada de Linguística do Reino Unido (UKLO).

Princípios Fundamentais:

Preservação da Lógica: O objetivo é manter a lógica de solução e os passos de raciocínio intactos, enquanto se altera a superfície do texto para que o modelo não possa usar conhecimento prévio.
Permutação de Grafemas: Diferente de substituições de palavras (que quebrariam a estrutura morfológica), o método permuta grafemas (letras ou combinações de letras que representam sons).
Regras de Permutação (Rulesets): Para garantir que o problema permaneça solúvel e que as propriedades linguísticas essenciais (como harmonia vocálica ou pares de sons) sejam preservadas, foram criados conjuntos de regras específicos para cada problema.
- Exemplo: Se um problema depende da distinção entre vogais arredondadas e não arredondadas, a permutação deve manter esses pares intactos, apenas trocando quais grafemas representam quais sons dentro do grupo.
Remoção de Metadados: Nomes de línguas, famílias linguísticas e informações geográficas são removidos ou substituídos por "Língua X" para evitar que o modelo adivinhe a língua de origem.

Estrutura do Dataset:

Baseado em 82 problemas originais da UKLO.
Gera 1.203 perguntas principais e 6.995 pares de sub-perguntas/respostas.
Cada problema original é submetido a até 6 permutações válidas, criando variantes únicas que não existem em nenhum corpus de treinamento conhecido.

3. Contribuições Principais

Benchmark Não Saturado: Um conjunto de dados desafiador onde o modelo de ponta (GPT-5) atingiu apenas 48% de precisão geral e 31% nos problemas de maior dificuldade, indicando que há muito espaço para melhoria.
Método de Quantificação de Efeitos de Conhecimento: A diferença entre o desempenho em problemas originais ( $M_{og}$ ) e ofuscados ( $M_{obf}$ ) serve como uma métrica para medir o quanto um modelo depende de "atalhos" (conhecimento/memorização) versus raciocínio real.
Geração de Problemas Não Contaminados: O método demonstra que é possível gerar variantes de problemas que eliminam a contaminação por dados de treinamento, validando a eficácia da ofuscação mesmo em problemas inéditos (como os da UKLO 2025).

4. Resultados e Análise

Desempenho Geral:

Queda de Desempenho: Ao aplicar a ofuscação, a pontuação dos modelos caiu drasticamente. O GPT-5, por exemplo, caiu de 0,59 (problemas originais) para 0,48 (problemas ofuscados).
Modelos de Raciocínio vs. Gerais: Modelos projetados para raciocínio (como o Claude 3.7 "thinking" e o o3-mini) superaram os modelos de propósito geral, mas ainda mostraram sensibilidade significativa à permutação, indicando que o raciocínio simbólico robusto ainda é um desafio.
Correlação com Recursos da Língua: Foi observada uma correlação negativa entre a "ressourcedness" (número de falantes/recursos de treinamento) da língua e a queda de desempenho. Modelos performam pior em línguas de alto recurso quando ofuscadas, sugerindo que eles dependem fortemente de conhecimento prévio nessas línguas.

Análise de "Sem Contexto" (No Context):

Em um experimento onde informações críticas foram removidas do prompt (tornando o problema impossível de resolver apenas por raciocínio), os modelos obtiveram pontuações próximas de zero (ex: 0,02 para Llama 3.3 70B) nos problemas ofuscados. Isso confirma que a ofuscação eliminou a capacidade do modelo de "chutar" ou usar conhecimento externo.

Efeito de Tokenização:

Os autores testaram se a queda de desempenho era causada apenas pela tokenização subótima de sequências de caracteres incomuns. Experimentos com tokenização forçada (separando caracteres ou inserindo traços) mostraram que a performance não melhorou, indicando que a falha é de raciocínio, e não apenas de processamento de tokens.

Validação Humana:

Um estudo com 172 participantes humanos mostrou uma queda de desempenho de 5,7% nos problemas ofuscados. Isso sugere que a ofuscação aumenta a dificuldade cognitiva superficialmente, mas não invalida a solubilidade do problema. A queda nos modelos (12,84%) foi quase o dobro da humana, reforçando que os modelos dependem mais de exposição prévia à ortografia original do que humanos.

5. Significado e Conclusão

O LINGOLY-TOO oferece uma medida mais limpa e conservadora das capacidades de raciocínio dos LLMs.

Desmistificação: Revela que as altas pontuações em benchmarks de raciocínio linguístico são frequentemente infladas por conhecimento e memorização.
Direção Futura: Mostra que, embora os modelos tenham melhorado em raciocínio (especialmente com técnicas de inferência como "thinking"), eles ainda falham em consistência e robustez ao lidar com variações ortográficas que preservam a lógica subjacente.
Ética: O trabalho aborda preocupações éticas ao garantir que as ofuscações não alteram a gramática ou significados das línguas de baixo recurso, nem expõem comunidades linguísticas a danos, transformando apenas a representação escrita para fins de avaliação.

Em suma, o artigo estabelece que para medir o verdadeiro raciocínio em IA, é necessário testar modelos em cenários onde o conhecimento prévio é inútil, forçando-os a depender exclusivamente da indução de regras a partir do contexto.