BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, geavanceerde robot hebt die je kunt vragen om een huis te bouwen. Je geeft de robot een blauwdruk, en hij pakt zijn gereedschap. Tot nu toe hebben we deze robots getest door ze kleine, simpele klusjes te laten doen: "Vervang deze ene kapotte deurklink in de keuken" of "Maak dit raam dicht dat lekkt." De robots waren hier best goed in.

Maar de echte vraag is: Kan deze robot ook een heel nieuw huis bouwen, of een bestaand huis verbouwen terwijl de buren hun eigen huizen ook aan het renoveren zijn?

Dat is precies wat dit nieuwe onderzoek, genaamd BeyondSWE, onderzoekt. De auteurs zeggen: "Onze huidige tests zijn te makkelijk. Ze kijken alleen naar kleine reparaties binnen één enkel huis (één computerprogramma). Maar in het echte leven werken programmeurs aan veel complexere dingen."

Hier is een uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. De Oude Test: De "Klein Klusje"-Test

Vroeger testten we AI-programma's (code-agents) met een benchmark genaamd SWE-bench.

De Vergelijking: Dit was alsof we de robot alleen lieten oefenen op het vervangen van een kapotte schroef in één specifieke kast.
Het Probleem: In het echte leven moet een programmeur vaak:
- Kijken naar hoe een ander bedrijf een probleem heeft opgelost (niet alleen in hun eigen huis).
- Diepe kennis hebben van heel specifieke vakgebieden, zoals quantumfysica of biologie (alsof de robot ook een dokter moet zijn).
- Een heel huis verbouwen omdat de leverancier van de ramen (de software-bibliotheken) ineens nieuwe, andere ramen levert.
- Een heel nieuw huis bouwen vanaf nul, alleen op basis van een beschrijving in een brief.

De huidige robots faalden hierop. Zelfs de slimste modellen haalden maar 45% succes. Ze waren als een meester-timmerman die een deur kan vervangen, maar in paniek raakt als hij een nieuw huis moet ontwerpen.

2. De Nieuwe Test: BeyondSWE (De "Grote Uitdaging")

De onderzoekers hebben een nieuwe test ontwikkeld, BeyondSWE. Ze hebben 500 echte, moeilijke taken verzameld die de robots moeten oplossen. Ze kijken naar twee dingen:

Hoe groot is de klus? (Is het een schroefje of een hele verbouwing?)
Hoeveel kennis heb je nodig? (Moet je alleen in je eigen huis kijken, of moet je ook naar de bibliotheek, de buren en het internet gaan?)

De vier soorten klusjes in deze test:

De Buurman-Check (CrossRepo): Je hebt een probleem, en je moet kijken hoe een ander bedrijf dat al heeft opgelost en die oplossing overnemen.
De Specialist (DomainFix): Je moet een probleem oplossen in een heel specifiek vakgebied, zoals het simuleren van atomen of het analyseren van DNA. De robot moet "weten" hoe atomen werken, niet alleen hoe code werkt.
De Verhuizing (DepMigrate): Stel, de leverancier van je ramen (een software-update) verandert de maatvoering. Je moet nu alle ramen in het hele huis aanpassen. Dit is een enorme verbouwing, geen klein klusje.
De Bouwmeester (Doc2Repo): Je krijgt alleen een beschrijving van een huis ("Ik wil een huis met 3 slaapkamers en een zwembad") en de robot moet het hele huis bouwen, inclusief de fundering en het dak, zonder dat er al muren staan.

3. De Hulpbron: SearchSWE (De "Google-Bril")

De onderzoekers dachten: "Misschien helpen we de robots door ze een bril te geven waarmee ze het internet kunnen zoeken." Ze bouwden een systeem genaamd SearchSWE. Dit laat de robot zoeken op Google, forums en documentatie terwijl hij werkt.

Het verrassende resultaat:
Het werkt niet altijd zoals je denkt!

Soms helpt het: Als de robot een specialistische vraag heeft (bijv. over quantumfysica), helpt het zoeken enorm. Het is alsof je de robot een boek geeft waar het antwoord in staat.
Soms helpt het niet: Soms maakt het de robot verward. De robot zoekt naar informatie, maar vindt verouderde informatie of informatie die niet past bij de versie van de software die hij gebruikt.
- Vergelijking: Stel je voor dat je een robot vraagt om een auto te repareren. Hij zoekt op Google en vindt een handleiding voor een auto uit 2025. Maar jouw auto is uit 2018. De robot probeert de nieuwe handleiding toe te passen op de oude auto en maakt hem kapot.

De conclusie is dat het samenvoegen van "zoeken" en "bouwen" heel moeilijk is voor AI. Het is alsof je iemand vraagt om te koken terwijl je hem constant nieuwe recepten opstuurt via WhatsApp. Soms helpt het, maar vaak raakt hij de draad kwijt.

4. Wat betekent dit voor de toekomst?

Dit onderzoek is een wake-up call.

De robots zijn nog niet klaar voor de echte wereld. Ze zijn goed in simpele klusjes, maar falen als het complex wordt.
Zoeken is niet de oplossing voor alles. Gewoon "meer internettoegang" geven aan een AI maakt hem niet automatisch slimmer. De AI moet leren wanneer hij moet zoeken en welke informatie hij moet vertrouwen.
We hebben betere tests nodig. Zolang we alleen testen op simpele klusjes, denken we dat AI al perfect is. Met BeyondSWE zien we nu pas de echte beperkingen.

Kort samengevat:
Deze paper zegt: "Onze AI-robots zijn slim, maar ze zijn nog geen echte programmeurs. Ze kunnen een deurklink vervangen, maar als je ze vraagt om een heel huis te bouwen of een verbouwing te doen terwijl de buren ook aan het bouwen zijn, raken ze in de war. We moeten ze beter trainen om te zoeken, te begrijpen en te bouwen, en niet alleen kleine klusjes te doen."

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

1. De Oude Test: De "Klein Klusje"-Test

2. De Nieuwe Test: BeyondSWE (De "Grote Uitdaging")

3. De Hulpbron: SearchSWE (De "Google-Bril")

4. Wat betekent dit voor de toekomst?

1. Het Probleem

2. Methodologie

A. BeyondSWE (De Benchmark)

B. SearchSWE (Het Framework)

3. Belangrijkste Resultaten

4. Bijdragen

5. Betekenis en Conclusie

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

1. De Oude Test: De "Klein Klusje"-Test

2. De Nieuwe Test: BeyondSWE (De "Grote Uitdaging")

3. De Hulpbron: SearchSWE (De "Google-Bril")

4. Wat betekent dit voor de toekomst?

1. Het Probleem

2. Methodologie

A. BeyondSWE (De Benchmark)

B. SearchSWE (Het Framework)

3. Belangrijkste Resultaten

4. Bijdragen

5. Betekenis en Conclusie

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics