The Limits of Long-Context Reasoning in Automated Bug Fixing

Dit onderzoek toont aan dat hoewel agentische workflows met taakdecompositie de prestaties van grote taalmodellen bij het oplossen van bugs verbeteren, hun vermogen tot daadwerkelijk lang-context redeneren beperkt blijft, wat leidt tot scherpe prestatiedalingen bij het genereren van patches in contexten van 64k tokens.

Ravi Raju, Mengmeng Ji, Shubhangi Upasani, Bo Li, Urmish Thakker

Gepubliceerd Mon, 09 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom de "Super-Geheugen" van AI nog niet werkt zoals we hopen (in simpele taal)

Stel je voor dat je een enorme bibliotheek hebt, vol met miljoenen boeken. Je hebt een nieuwe, super-intelligente robot die je kunt vragen: "Lees dit hele gebouw en los die ene fout op in boek 345."

De makers van deze robot (de AI-modellen) zeggen: "Geen probleem! We hebben een geheugen dat groot genoeg is om alle boeken tegelijk in te lezen. We noemen dit 'Long-Context'."

De onderzoekers van dit paper hebben echter een experiment gedaan om te kijken of die robot die belofte ook echt waarmaakt. Het resultaat? Niet echt. Hier is wat ze ontdekten, vertaald naar alledaagse beelden:

1. De Illusie van de "Grote Geheugen"

De AI-modellen (zoals GPT-5-nano en Deepseek) kunnen technisch gezien wel heel veel tekst in één keer verwerken (zoals 64.000 woorden of meer). Maar net als een mens die een hele encyclopedie in één keer probeert te lezen, raakt de AI in de war als je hem te veel informatie tegelijk geeft.

De onderzoekers ontdekten dat de AI's eigenlijk heel slim zijn, maar alleen als je ze stap-voor-stap helpt.

2. De "Detective" vs. De "Boekwurm"

Het paper vergelijkt twee manieren om de AI te testen:

  • De Detectivemethode (Agentic Workflow):
    Stel je voor dat je een detective hebt. Je geeft hem niet de hele bibliotheek, maar zegt: "Ga eerst naar de kelder, zoek naar sleutels. Ga dan naar de zolder, zoek naar een kaart." De detective doet dit stap voor stap.

    • Resultaat: Dit werkt heel goed! De AI lost veel bugs op (tot 31% van de tijd). Maar let op: de AI leest nooit het hele gebouw tegelijk. Hij kijkt alleen naar het kamertje waar hij nu is.
    • Conclusie: De AI is slim, maar hij gebruikt zijn "grote geheugen" niet echt. Hij breekt het probleem op in kleine stukjes.
  • De Boekwurm-methode (Single-Shot Long Context):
    Nu proberen we de AI te dwingen om alles tegelijk te lezen. We geven hem de hele bibliotheek (64.000 woorden) in één keer en zeggen: "Kijk naar alles en los de fout direct op."

    • Resultaat: Rampzalig. De AI raakt volledig in paniek. Hij hallucineert (verzonnen dingen), wijst naar boeken die niet bestaan, of schrijft oplossingen die helemaal niet kloppen. De succes率 daalt naar 0% of 7%.
    • Analogie: Het is alsof je iemand in een kamer stopt met 10.000 losse puzzelstukken en zegt: "Zet de puzzel in één seconde in elkaar." De persoon wordt overweldigd en maakt fouten.

3. De "Gouden Patch" Test

Om zeker te weten dat de AI niet faalt omdat hij de juiste boeken niet kon vinden, deden de onderzoekers een speciale test. Ze gaven de AI alle benodigde boeken al in de hand (perfecte "retrieval"). Ze gaven hem de volledige context van 64.000 woorden.

Zelfs toen de AI alles voor zijn neus had, lukte het hem niet om de oplossing te vinden. Hij maakte fouten zoals:

  • "Ik ga dit bestand aanpassen" (terwijl dat bestand niet in de context zat).
  • "Regel 500" (terwijl het bestand maar 50 regels lang was).
  • Het schrijven van code die eruitzag als een oplossing, maar in feite onzin was.

4. Wat betekent dit voor de toekomst?

De grote les uit dit onderzoek is: Meer geheugen betekent niet automatisch meer slimheid.

  • De mythe: We denken dat AI's nu zo slim zijn dat ze een heel software-project in één oogopslag kunnen begrijpen en fixen.
  • De realiteit: Ze zijn nog steeds afhankelijk van mensen (of andere AI-tools) om het werk op te splitsen in kleine, beheersbare taken. Als je ze dwingt om alles tegelijk te doen, zakken ze door de grond.

Kortom:
De AI's zijn als een super-snelle lezer die wel duizenden pagina's kan zien, maar die de draad kwijtraakt als je hem te veel informatie tegelijk geeft. Om echt goede software te maken, moeten we hen niet dwingen om "alles in één keer" te doen, maar hen laten werken als een team van detectives die stap voor stap het probleem oplossen.

De huidige benchmarks (toetsen) die we gebruiken, testen vooral hoe goed ze kunnen "stap-voor-stap" werken, en niet hoe goed ze kunnen "alles tegelijk" begrijpen. Dat laatste is nog een hele uitdaging!