Evaluating Code Reasoning Abilities of Large Language Models Under Real-World Settings

Este artigo propõe um novo conjunto de dados de 1.200 problemas de raciocínio de código, categorizados por níveis de complexidade, para avaliar de forma mais realista a capacidade de modelos de linguagem de lidar com as dependências e estruturas complexas encontradas em cenários do mundo real.

Autores originais: Changshu Liu, Alireza Ghazanfari, Yang Chen, Reyhaneh Jabbarvand

Publicado 2026-04-27
📖 3 min de leitura☕ Leitura rápida

Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

O Teste do "Mundo Real": Por que os robôs de IA ainda se perdem no código?

Imagine que você quer testar se um estudante é realmente bom em matemática. Para isso, você dá a ele uma lista de 1.000 contas de somar e subtrair simples, como 2 + 2 ou 10 - 5. O estudante acerta todas! Você fica impressionado e diz: "Nossa, esse aluno é um gênio da matemática!"

Mas aí, você leva esse mesmo aluno para uma sala de engenharia, onde ele precisa calcular a resistência de uma ponte ou a trajetória de um foguete, e ele trava completamente.

O problema é exatamente esse, e é o que este artigo científico descobriu sobre a Inteligência Artificial (IA).

1. O "Efeito Simulador de Videogame" (O Problema)

Até agora, os cientistas testavam a capacidade de "raciocínio de código" das IAs (como o ChatGPT) usando problemas muito simples, quase como um videogame de 8 bits: tudo é quadradinho, previsível e sem detalhes. Esses testes são chamados de "baixa complexidade".

O artigo argumenta que esses testes são "fáceis demais" e dão uma falsa sensação de que a IA é super inteligente. Na vida real, o código de um programador é como uma floresta densa: tem galhos cruzados (dependências), ferramentas estranhas (APIs de terceiros) e estruturas muito profundas e complicadas.

2. O RE2-Bench: O "Exame de Admissão de Engenharia" (A Solução)

Os pesquisadores criaram um novo teste chamado RE2-Bench. Em vez de dar "contas de somar" para a IA, eles pegaram códigos reais de projetos gigantes do GitHub (como o que faz o site do Instagram ou ferramentas de ciência de dados) e transformaram em desafios.

Eles criaram um sistema inteligente para separar os problemas em dois grupos:

  • Grupo LC (Baixa Complexidade): O "estudante de escola" (problemas simples).
  • Grupo HC (Alta Complexidade): O "engenheiro de campo" (problemas reais, com peças conectadas e regras complexas).

3. O Choque de Realidade (O Resultado)

Quando eles colocaram as melhores IAs do mundo para fazer o teste, o resultado foi um balde de água fria.

Quando a dificuldade subia do nível "escola" para o nível "mundo real", o desempenho das IAs despencava drasticamente:

  • Na previsão de entradas, a eficiência caía cerca de 37%.
  • Na previsão de saídas, caía cerca de 36%.
  • Em decisões de lógica (ramos de decisão), a queda era de quase 49%!

Em resumo: A IA é ótima em seguir um trilho de trem reto, mas quando você a coloca para dirigir um jipe em uma trilha de lama cheia de curvas e obstáculos, ela se perde.

4. Por que elas falham? (O Diagnóstico)

Os pesquisadores agiram como "médicos de código" e descobriram os sintomas das falhas. As IAs costumam "desmaiar" quando:

  • O caminho é longo demais: Elas esquecem onde estavam no meio de uma sequência de comandos.
  • As peças são complexas: Elas não entendem objetos que têm muitas propriedades dentro de si (como uma caixa dentro de outra caixa).
  • O raciocínio é "para trás": É muito mais fácil para a IA dizer "se eu tenho X, o resultado é Y" (ir para frente) do que "se o resultado foi Y, o que eu tive que ter usado no começo?" (ir para trás).

Conclusão

Este trabalho é um "puxão de orelha" na comunidade de tecnologia. Ele diz: "Parem de dar prêmios para as IAs por acertarem coisas fáceis. Precisamos treiná-las para o caos do mundo real, onde as coisas não são apenas números, mas sistemas complexos e interconectados."

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →