BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um estagiário de programação superinteligente, feito de inteligência artificial (IA). Até hoje, os testes para ver se esse estagiário é bom eram como dar a ele um quebra-cabeça pequeno e fácil: "Arrume este único erro nesta única sala da casa".

O artigo "BeyondSWE" (que significa "Além do SWE", onde SWE é Engenharia de Software) diz: "E se a gente testar esse estagiário em situações reais, onde ele precisa lidar com a casa inteira, vizinhança e até com manuais de instruções que ele nunca viu?"

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. O Problema: O Estagiário "Cego"

Os testes antigos (chamados SWE-bench) eram como pedir para o estagiário consertar um vazamento em uma torneira específica, mas proibindo que ele olhasse para fora da cozinha ou consultasse o manual do encanador.

Na vida real: Um programador nunca trabalha sozinho. Ele consulta fóruns, lê documentação de outras empresas, migra sistemas inteiros quando uma biblioteca muda e cria projetos do zero baseados em um desenho arquitetural.
O teste novo (BeyondSWE): Eles criaram um "obstáculo de guerra" com 500 desafios reais que exigem:
- CrossRepo (A Vizinha): "Arrume o vazamento na sua cozinha, mas você precisa olhar como a vizinha resolveu um problema parecido na casa dela."
- DomainFix (O Especialista): "Conserte um erro em um software de física quântica. Você precisa saber física, não apenas programar."
- DepMigrate (A Reforma): "A casa inteira foi reformada (uma atualização de sistema), e agora todas as portas e janelas (códigos) não encaixam mais. Você precisa adaptar tudo."
- Doc2Repo (O Arquiteto): "Aqui está um desenho de uma casa em papel. Construa a casa inteira do zero, sem ter nenhum tijolo pronto."

2. O Resultado: O Choque de Realidade

Quando eles testaram as IAs mais modernas (os "gigantes" da tecnologia) nesses novos desafios, a notícia não foi boa:

O teto de vidro: Mesmo as IAs mais inteligentes conseguiram resolver menos de 45% dos problemas.
O especialista falho: Nenhuma IA foi boa em tudo. Uma era ótima em física, mas péssima em construir casas do zero. É como ter um médico que é ótimo em cardiologia, mas não sabe tratar um corte no dedo.
Conclusão: As IAs atuais são ótimas em "arrumar a torneira" se a peça estiver na mesa, mas travam quando precisam sair da sala, procurar peças em outros lugares ou entender conceitos complexos de outras áreas.

3. A Tentativa de Solução: O "Estagiário com Google" (SearchSWE)

Os pesquisadores pensaram: "E se dermos um celular para o estagiário para ele pesquisar no Google enquanto trabalha?" Eles criaram uma ferramenta chamada SearchSWE.

A Esperança: A IA pesquisaria a solução, leria o manual e consertaria o problema.
A Realidade: Funcionou de forma muito inconsistente.
- Às vezes, a pesquisa ajudava muito (como quando precisava de um manual técnico específico).
- Outras vezes, piorou a situação. A IA lia informações erradas, confundia versões antigas com novas, ou lia coisas de outros campos (como ler um manual de arquitetura para consertar um motor de carro) e aplicava a solução errada.

A Analogia do "Google Maluco":
Imagine que você pede para um estagiário arrumar um carro. Ele vai ao Google e lê um fórum.

Cenário A (Bom): Ele lê um fórum de mecânicos e descobre que o parafuso é de um tipo específico. Ele conserta.
Cenário B (Ruim): Ele lê um fórum de carros antigos e acha que deve usar uma peça de 1980, mas o carro é de 2024. Ele quebra o motor.
O Problema: A IA não sabe quando pesquisar, o que pesquisar e, principalmente, como filtrar o que é verdade do que é "ruído" na internet. Ela não consegue misturar a pesquisa com o raciocínio de forma inteligente, como um humano faria.

4. O Que Isso Significa para o Futuro?

O artigo nos dá um aviso importante:
Não basta apenas treinar a IA para "escrever código" ou apenas para "pesquisar na internet". O segredo para ter um programador de IA de verdade é ensinar a IA a juntar as duas coisas: saber quando parar de digitar, abrir o navegador, ler com atenção, entender o contexto e aplicar o conhecimento correto.

Resumo em uma frase:
As IAs atuais são como estagiários brilhantes que sabem programar, mas ainda não aprenderam a ser "engenheiros de verdade" que navegam pelo mundo real, consultam especialistas e lidam com imprevistos complexos; e simplesmente dar a elas um acesso à internet não resolve o problema se elas não souberem usar essa informação com sabedoria.

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

1. O Problema: O Estagiário "Cego"

2. O Resultado: O Choque de Realidade

3. A Tentativa de Solução: O "Estagiário com Google" (SearchSWE)

4. O Que Isso Significa para o Futuro?

Resumo Técnico: BeyondSWE

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Conclusão

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

1. O Problema: O Estagiário "Cego"

2. O Resultado: O Choque de Realidade

3. A Tentativa de Solução: O "Estagiário com Google" (SearchSWE)

4. O Que Isso Significa para o Futuro?

Resumo Técnico: BeyondSWE

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics