BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

O artigo apresenta o BeyondSWE, um novo benchmark abrangente que revela lacunas significativas na capacidade dos agentes de código atuais para lidar com tarefas além de correções de bugs em repositórios únicos, além de introduzir o framework SearchSWE para investigar os efeitos da busca externa, demonstrando que tal augmentação resulta em ganhos inconsistentes e destaca a dificuldade de emular fluxos de trabalho de desenvolvimento que intercalam busca e raciocínio.

Guoxin Chen, Fanzhe Meng, Jiale Zhao, Minghao Li, Daixuan Cheng, Huatong Song, Jie Chen, Yuzhi Lin, Hui Chen, Xin Zhao, Ruihua Song, Chang Liu, Cheng Chen, Kai Jia, Ji-Rong Wen

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um estagiário de programação superinteligente, feito de inteligência artificial (IA). Até hoje, os testes para ver se esse estagiário é bom eram como dar a ele um quebra-cabeça pequeno e fácil: "Arrume este único erro nesta única sala da casa".

O artigo "BeyondSWE" (que significa "Além do SWE", onde SWE é Engenharia de Software) diz: "E se a gente testar esse estagiário em situações reais, onde ele precisa lidar com a casa inteira, vizinhança e até com manuais de instruções que ele nunca viu?"

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. O Problema: O Estagiário "Cego"

Os testes antigos (chamados SWE-bench) eram como pedir para o estagiário consertar um vazamento em uma torneira específica, mas proibindo que ele olhasse para fora da cozinha ou consultasse o manual do encanador.

  • Na vida real: Um programador nunca trabalha sozinho. Ele consulta fóruns, lê documentação de outras empresas, migra sistemas inteiros quando uma biblioteca muda e cria projetos do zero baseados em um desenho arquitetural.
  • O teste novo (BeyondSWE): Eles criaram um "obstáculo de guerra" com 500 desafios reais que exigem:
    • CrossRepo (A Vizinha): "Arrume o vazamento na sua cozinha, mas você precisa olhar como a vizinha resolveu um problema parecido na casa dela."
    • DomainFix (O Especialista): "Conserte um erro em um software de física quântica. Você precisa saber física, não apenas programar."
    • DepMigrate (A Reforma): "A casa inteira foi reformada (uma atualização de sistema), e agora todas as portas e janelas (códigos) não encaixam mais. Você precisa adaptar tudo."
    • Doc2Repo (O Arquiteto): "Aqui está um desenho de uma casa em papel. Construa a casa inteira do zero, sem ter nenhum tijolo pronto."

2. O Resultado: O Choque de Realidade

Quando eles testaram as IAs mais modernas (os "gigantes" da tecnologia) nesses novos desafios, a notícia não foi boa:

  • O teto de vidro: Mesmo as IAs mais inteligentes conseguiram resolver menos de 45% dos problemas.
  • O especialista falho: Nenhuma IA foi boa em tudo. Uma era ótima em física, mas péssima em construir casas do zero. É como ter um médico que é ótimo em cardiologia, mas não sabe tratar um corte no dedo.
  • Conclusão: As IAs atuais são ótimas em "arrumar a torneira" se a peça estiver na mesa, mas travam quando precisam sair da sala, procurar peças em outros lugares ou entender conceitos complexos de outras áreas.

3. A Tentativa de Solução: O "Estagiário com Google" (SearchSWE)

Os pesquisadores pensaram: "E se dermos um celular para o estagiário para ele pesquisar no Google enquanto trabalha?" Eles criaram uma ferramenta chamada SearchSWE.

  • A Esperança: A IA pesquisaria a solução, leria o manual e consertaria o problema.
  • A Realidade: Funcionou de forma muito inconsistente.
    • Às vezes, a pesquisa ajudava muito (como quando precisava de um manual técnico específico).
    • Outras vezes, piorou a situação. A IA lia informações erradas, confundia versões antigas com novas, ou lia coisas de outros campos (como ler um manual de arquitetura para consertar um motor de carro) e aplicava a solução errada.

A Analogia do "Google Maluco":
Imagine que você pede para um estagiário arrumar um carro. Ele vai ao Google e lê um fórum.

  • Cenário A (Bom): Ele lê um fórum de mecânicos e descobre que o parafuso é de um tipo específico. Ele conserta.
  • Cenário B (Ruim): Ele lê um fórum de carros antigos e acha que deve usar uma peça de 1980, mas o carro é de 2024. Ele quebra o motor.
  • O Problema: A IA não sabe quando pesquisar, o que pesquisar e, principalmente, como filtrar o que é verdade do que é "ruído" na internet. Ela não consegue misturar a pesquisa com o raciocínio de forma inteligente, como um humano faria.

4. O Que Isso Significa para o Futuro?

O artigo nos dá um aviso importante:
Não basta apenas treinar a IA para "escrever código" ou apenas para "pesquisar na internet". O segredo para ter um programador de IA de verdade é ensinar a IA a juntar as duas coisas: saber quando parar de digitar, abrir o navegador, ler com atenção, entender o contexto e aplicar o conhecimento correto.

Resumo em uma frase:
As IAs atuais são como estagiários brilhantes que sabem programar, mas ainda não aprenderam a ser "engenheiros de verdade" que navegam pelo mundo real, consultam especialistas e lidam com imprevistos complexos; e simplesmente dar a elas um acesso à internet não resolve o problema se elas não souberem usar essa informação com sabedoria.