A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management

Deze paper introduceert LoCoEval, het eerste benchmark voor het beheer van lange-termijn conversatiecontext in repository-ontwikkeling, en presenteert een verbeterde methode die repository- en conversatie-informatie integreert om de beperkingen van bestaande benaderingen te overwinnen.

Yang Liu, Li Zhang, Fang Liu, Ping Lin, Xinyi Li

Gepubliceerd Mon, 09 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente assistent hebt die je helpt bij het bouwen van een enorme, complexe stad: de software-repository. Deze assistent is een AI (een groot taalmodel) die alles kan lezen, begrijpen en code kan schrijven.

In het begin werkt het fantastisch. Je vraagt: "Hoe werkt deze straat?" en hij antwoordt perfect. Maar naarmate het project groeit, wordt het gesprek lang. Je hebt honderden vragen gesteld, ideeën gewijzigd, fouten opgelost en nieuwe regels bedacht.

Hier komt het probleem: De assistent vergeet dingen.

Het Probleem: De "Grote Vergetelheid"

Stel je voor dat je assistent een werkgeheugen heeft dat maar tot een bepaalde lengte reikt. Zodra het gesprek langer wordt dan dat geheugen, moet hij de oudste stukjes van het gesprek weggooien om ruimte te maken voor de nieuwe.

In de echte wereld van softwareontwikkeling is dit rampzalig. Je zegt: "Oh, wacht, ik wil die functie anders doen, zoals we drie uur geleden bespraken." Maar de assistent heeft die discussie al weggegooid omdat hij "vol" zat. Hij probeert het opnieuw te bedenken, maakt fouten, en raakt in de war.

Bestaande methoden om dit op te lossen (zoals het samenvatten van oude gesprekken) werken goed voor alledaagse praatjes, maar falen als het gaat om code. Code is te specifiek; je kunt niet zomaar zeggen "het was een blauwe auto" als je later precies moet weten welk type boutje in de motor zat.

De Oplossing: LoCoEval (De Nieuwe Test)

De auteurs van dit paper hebben een nieuwe test ontwikkeld, genaamd LoCoEval.

  • De Analogie: Stel je voor dat je een gymnastiekwedstrijd organiseert, maar dan niet voor gewone gymnasten, maar voor AI-assistenten die in een fabriek werken.
  • Het Doel: Ze willen testen: "Hoe goed kan een AI zich herinneren wat er 500 vragen geleden is gezegd, terwijl er tegelijkertijd duizenden documenten en blauwdrukken in de fabriek liggen?"

Ze hebben een slimme machine gebouwd die nep-gesprekken genereert die precies lijken op echte ontwikkelgesprekken. Deze gesprekken zijn:

  1. Lang: Ze gaan tot wel 256.000 woorden (tokens) lang.
  2. Chaotisch: Mensen maken fouten, vragen dingen terug, en praten over meerdere onderwerpen door elkaar.
  3. Gecompliceerd: De AI moet niet alleen het gesprek onthouden, maar ook de juiste code uit de fabriek (de repository) halen om het antwoord te geven.

Wat hebben ze ontdekt?

Toen ze verschillende AI-assistenten deze test lieten doen, zagen ze drie dingen:

  1. De "Gewone" AI faalt: Zelfs de slimste AI's (zoals GPT-5 mini) raken de draad kwijt in zulke lange gesprekken. Ze vergeten cruciale details en hun antwoorden worden slecht. Het is alsof ze een boek lezen, maar na elke pagina de vorige pagina vergeten.
  2. Bestaande "Geheugens" werken niet: Er zijn methoden die proberen het geheugen van de AI te beheren (zoals een notitieblok dat automatisch wordt samengevat). Maar deze methoden zijn gemaakt voor alledaagse gesprekken. In de fabriek werken ze niet goed omdat ze de link tussen het gesprek en de specifieke code niet snappen.
  3. De "Simpele" oplossing werkt soms beter: Een heel simpele methode (gewoon zoeken naar de meest recente relevante stukjes) deed het soms beter dan de ingewikkelde systemen.

De Nieuwe Held: Mem0R

De auteurs hebben een nieuwe, verbeterde versie van een geheugensysteem bedacht, genaamd Mem0R.

  • De Analogie: Stel je voor dat een gewone AI-assistent alleen luistert naar wat je zegt. Mem0R doet meer: het kijkt ook mee in de blauwdrukken van de fabriek.
  • Hoe het werkt: Als je zegt "Ik wil die functie aanpassen", onthoudt Mem0R niet alleen de zin, maar koppelt het die zin direct aan het specifieke bestand in de computer waar die code staat. Het maakt een twee-weg verbinding tussen wat je zegt en waar het in de code staat.

Het resultaat: Mem0R deed het veel beter dan de anderen. Het vergat minder dingen, maakte minder fouten en was sneller, zelfs in de langste en chaotischste gesprekken.

Waarom is dit belangrijk?

Vandaag de dag gebruiken steeds meer mensen AI om software te bouwen. Maar als die AI niet kan onthouden wat er in een lang gesprek is besproken, is hij nutteloos voor grote projecten.

Dit paper zegt eigenlijk: "We hebben een nieuwe meetlat (LoCoEval) gemaakt om te zien wie er echt goed is in lange gesprekken over code, en we hebben bewezen dat we AI's moeten leren om niet alleen te luisteren, maar ook te kijken naar de bronnen waarover ze praten."

Kortom: Om een goede software-bouwer te zijn, moet je niet alleen een goed geheugen hebben, maar ook weten waar je de blauwdrukken vindt.