BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Agentes de Código (programadores robóticos impulsados por Inteligencia Artificial) son como aprendices de chef muy inteligentes.

Hasta ahora, para entrenarlos, los científicos les daban recetas muy simples: "Aquí tienes una sartén, aquí tienes un huevo, y aquí está la receta para hacer un huevo frito perfecto". Los robots aprendían a cocinar ese huevo específico en esa sartén específica. Se les llamaba "expertos en cocinar un solo plato".

Pero en la vida real, un chef no solo cocina un huevo. Un chef tiene que:

Buscar recetas en libros de otros chefs (otros repositorios).
Entender química compleja para hacer un postre molecular (conocimiento de dominio).
Cambiar toda la cocina porque la empresa cambió el tipo de gas (migración de dependencias).
Diseñar un restaurante entero desde cero solo con un boceto en una servilleta (generación de repositorio).

Aquí es donde entra el papel "BeyondSWE" (Más allá de arreglar un solo bug).

1. El Problema: Los Robots se Quedan Atascados en la Cocina

Los autores del paper dicen: "Oye, estamos probando a estos robots con tareas demasiado fáciles y limitadas. ¿Podrán sobrevivir si les pedimos que hagan algo más grande?".

Crearon un nuevo examen de prueba llamado BeyondSWE. Imagina que en lugar de pedirles que fijen un tornillo suelto en una bicicleta, les piden que:

CrossRepo (Cruce de Repositorios): Arreglen un problema en su bicicleta mirando cómo otros ciclistas solucionaron problemas similares en sus propias bicicletas.
DomainFix (Arreglo de Dominio): Arreglen un problema en un laboratorio de física cuántica. ¡El robot necesita saber de física, no solo de tornillos!
DepMigrate (Migración de Dependencias): Tienen que cambiar toda la bicicleta porque el fabricante cambió el tipo de neumáticos. ¡Tienen que adaptar todo el cuadro, no solo una rueda!
Doc2Repo (Documento a Repositorio): Tienen un papel con la descripción de un restaurante y deben construir el restaurante, la cocina y los menús desde cero.

El resultado fue decepcionante: Incluso los robots más inteligentes (los modelos de IA más avanzados) fallaron en más del 50% de las veces. Se quedaron atascados. Arreglar un solo tornillo no significa saber construir un edificio.

2. La Solución Propuesta: El "Investigador" (SearchSWE)

Los autores pensaron: "Bueno, si los robots no saben todo, ¿por qué no les damos un teléfono y les decimos que busquen en Google?".

Así crearon SearchSWE. Es un marco de trabajo donde el robot puede:

Escribir código.
Si se atasca, buscar en internet (usando herramientas de búsqueda) para encontrar respuestas, documentación o foros de discusión.
Leer esa información y volver a intentar el código.

La sorpresa: Funcionó, pero no como esperaban.

A veces, buscar ayudó mucho (como cuando el robot necesitaba saber una fórmula de física).
Otras veces, buscar empeoró las cosas.

3. ¿Por qué buscar a veces es malo? (Las analogías)

El paper explica tres razones por las que darles un teléfono a los robots a veces los confunde:

El "Ruido" de la Búsqueda (Semántica):
Imagina que le pides al robot: "¿Cómo se arregla un 'servicio' en mi aplicación?".
El robot busca en Google y encuentra miles de resultados sobre "servicios" de limpieza, servicios de comida o servicios legales. Se confunde con tanta información basura y termina escribiendo código para un restaurante en lugar de para su aplicación. Demasiada información no es buena si no sabes filtrar.
El Problema de la Versión (Tiempo):
Imagina que el robot busca en Google cómo usar una herramienta, pero Google le muestra el manual del año 2025 (la versión más nueva). Sin embargo, en su cocina (su entorno de trabajo), la herramienta es de 2020.
El robot sigue las instrucciones del manual nuevo, intenta usar un botón que no existe en su versión vieja, y ¡pum! La cocina explota. El robot no sabe que debe mirar primero qué versión tiene instalada antes de buscar en internet.
La Falta de Contexto (El Mapa vs. El Terreno):
A veces, el robot busca en internet una solución genérica. Pero su problema es muy específico y único. El robot copia la solución genérica sin entender que su caso tiene una excepción especial. Es como intentar arreglar un motor de Ferrari siguiendo las instrucciones de un manual de un Ford T.

Conclusión: ¿Qué nos enseña esto?

El mensaje principal del paper es: La inteligencia artificial para programar aún es un "aprendiz" que necesita madurar.

No son genios todopoderosos: Pueden arreglar un error simple en un archivo, pero si les pides que entiendan un sistema completo o busquen información externa, se pierden.
Buscar no es magia: Darle a un robot la capacidad de buscar en Google no lo hace automáticamente mejor. Necesita aprender cuándo buscar, qué buscar y cómo filtrar lo que encuentra para que no le confunda.
El futuro: Necesitamos entrenar a estos robots no solo para escribir código, sino para pensar como un humano: "Tengo un problema, voy a buscar ayuda, pero voy a verificar si esa ayuda sirve para mi situación específica antes de usarla".

En resumen: BeyondSWE es el examen de realidad que nos dice que los robots de programación aún tienen mucho que aprender antes de poder trabajar solos en un equipo de ingenieros humanos. Y SearchSWE es el experimento que nos muestra que simplemente "darles internet" no es la solución mágica; necesitan aprender a usarlo con sabiduría.

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

1. El Problema: Los Robots se Quedan Atascados en la Cocina

2. La Solución Propuesta: El "Investigador" (SearchSWE)

3. ¿Por qué buscar a veces es malo? (Las analogías)

Conclusión: ¿Qué nos enseña esto?

Resumen Técnico: BeyondSWE

1. Planteamiento del Problema

2. Metodología

A. BeyondSWE: Un Nuevo Benchmark

B. SearchSWE: Marco de Evaluación de Búsqueda

3. Contribuciones Clave

4. Resultados Experimentales

Hallazgos Principales:

5. Significado e Impacto

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

1. El Problema: Los Robots se Quedan Atascados en la Cocina

2. La Solución Propuesta: El "Investigador" (SearchSWE)

3. ¿Por qué buscar a veces es malo? (Las analogías)

Conclusión: ¿Qué nos enseña esto?

Resumen Técnico: BeyondSWE

1. Planteamiento del Problema

2. Metodología

A. BeyondSWE: Un Nuevo Benchmark

B. SearchSWE: Marco de Evaluación de Búsqueda

3. Contribuciones Clave

4. Resultados Experimentales

Hallazgos Principales:

5. Significado e Impacto

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models