Robust Reasoning Benchmark

Este artigo propõe um pipeline de perturbação para avaliar a robustez do raciocínio de modelos de linguagem, revelando que, embora modelos de ponta sejam resilientes, os modelos abertos sofrem colapsos catastróficos e degradação de desempenho devido à fragilidade estrutural e à contaminação dos mecanismos de atenção, sugerindo a necessidade de arquiteturas que integrem redefinições contextuais explícitas.

Pavel Golikov, Evgenii Opryshko, Gennady Pekhimenko, Mark C. Jeffrey

Publicado 2026-04-13
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

🧠 O Teste de Realidade: Quando a Matemática do Robô "Quebra"

Imagine que você tem um aluno muito inteligente, chamado Robô-Matemático. Ele tirou notas perfeitas em todas as provas da escola (os benchmarks padrão de matemática). Todo mundo acha que ele é um gênio da lógica.

Mas os autores deste estudo (Pavel, Evgenii e colegas) decidiram fazer algo diferente: em vez de dar a prova normal, eles mudaram a forma como a prova foi escrita, sem mudar a dificuldade ou os números.

Eles queriam saber: O Robô-Matemático realmente entende a lógica, ou ele apenas decorou o formato das perguntas?

A resposta foi chocante: Para a maioria dos robôs, a lógica quebrou completamente.


🎭 As 14 "Travessuras" (Perturbações)

Os pesquisadores criaram 14 tipos de "truques" para confundir o robô. Pense neles como se você estivesse entregando a prova de matemática de formas estranhas:

  1. O Espelho (Inversão): Em vez de escrever "Encontre o número X", eles escreveram "X o número o encontre". O texto está de cabeça para baixo.
  2. O Labirinto Visual (Códigos): Eles pegaram a pergunta e a escreveram em zigue-zague, como uma cerca de trem (Rail Fence), ou em espiral, como uma cobra (Snake). Para um humano, é só olhar e ler de trás para frente. Para o robô, é um pesadelo.
  3. O Caos de Palavras (Interleaving): Eles misturaram duas perguntas diferentes, palavra por palavra.
    • Exemplo: "A bola é vermelha e quente. O triângulo tem três lados e é azul."
    • O robô precisa separar a história da bola da história do triângulo.
  4. O "Não-Não" (Dupla Negação): Eles adicionaram palavras inúteis como "não não" antes de números. "Encontre o não não menor número primo". Um humano ri e ignora. O robô fica confuso.

A Regra de Ouro: O robô recebeu um "manual de instruções" explicando exatamente como decifrar cada truque. O problema não era falta de inteligência, era a estrutura do texto.


🏆 O Resultado: Quem Passou e Quem Caiu?

O estudo testou os robôs mais famosos do mundo (como GPT-5.4, Gemini 3.1 Pro, Claude Opus) e vários modelos de código aberto (gratuitos).

1. Os "Super-Robôs" (Modelos Fechados/Proprietários)

  • Quem são: GPT-5.4, Gemini 3.1 Pro.
  • O que aconteceu: Eles foram como atletas olímpicos. Mesmo com a prova escrita em zigue-zague ou de trás para frente, eles conseguiram ler o manual, decifrar o código, resolver a matemática e tirar nota alta.
  • A lição: Eles têm uma "memória de trabalho" muito forte e conseguem se adaptar a formatos estranhos.

2. Os "Robôs de Código Aberto" (Open Weights)

  • Quem são: Modelos como Qwen, Nemotron, DSR1.
  • O que aconteceu: Eles sofreram um colapso catastrófico.
    • Alguns modelos que tiravam 90% de nota na prova normal caíram para 0% quando a pergunta foi escrita em zigue-zague.
    • Foi como se você tirasse a placa de "PARE" de um semáforo e colocasse um desenho de um peixe. O carro (o robô) não sabia mais o que fazer e bateu.
  • A lição: Eles não estão "pensando" de verdade; eles estão apenas reconhecendo padrões visuais de texto. Se o padrão muda, a inteligência some.

3. O Caso Estranho (Claude Opus)

  • O Claude Opus 4.6 foi inteligente, mas recusou-se a responder a maioria das perguntas estranhas.
  • Por que? Os filtros de segurança dele acharam que os truques (como inverter símbolos) eram tentativas de hackers ("jailbreak"). Ele ficou tão preocupado em ser seguro que parou de pensar.

🧠 O Problema da "Poluição Mental" (Atenção Diluída)

Havia outro experimento brilhante no artigo. Eles pediram para o robô resolver várias perguntas de matemática seguidas, todas na mesma conversa, sem limpar a tela.

  • A Analogia: Imagine que você está resolvendo um quebra-cabeça. Depois de resolver a peça 1, você não joga a peça no lixo; você a deixa grudada na mesa. Depois resolve a peça 2 e a deixa grudada na 1. E assim por diante.
  • O Resultado: Quanto mais perguntas o robô resolvia, pior ele ficava na última pergunta.
  • Por que? A "memória de trabalho" do robô ficou poluída com os pensamentos anteriores. O robô não consegue "esquecer" o que acabou de pensar para focar no novo problema.
  • A Conclusão: Os robôs atuais não têm um botão de "Limpar Memória" interno. Eles acumulam "lixo mental" que atrapalha o raciocínio futuro.

💡 O Que Isso Significa para o Futuro?

O artigo diz que os robôs atuais são como atletas que só sabem correr em pistas de tartar. Se você mudar a cor da pista ou colocar pedras no caminho, eles caem.

Para criar robôs que realmente "pensam" e não apenas "adivinham", os cientistas precisam construir robôs que tenham:

  1. Botões de "Limpar Memória": Para esquecer o que acabou de fazer e focar no novo problema.
  2. Resiliência: Capacidade de entender a lógica, não importa se o texto está de cabeça para baixo, em zigue-zague ou misturado.

Resumo em uma frase:
Os robôs de hoje são ótimos em copiar o formato das perguntas, mas muitos deles quebram quando você muda a "roupa" do problema, revelando que eles ainda não têm uma verdadeira compreensão lógica, apenas uma memória de padrões muito frágil.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →