SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding

Songcheng Cai, Zhiheng Lyu, Yuansheng Ni, Xiangchao Chen, Baichuan Zhou, Shenzhe Zhu, Yi Lu, Haozhe Wang, Chi Ruan, Benjamin Schneider, Weixu Zhang, Xiang Li, Andy Zheng, Yuyu Zhang, Ping Nie, Wenhu C

Gepubliceerd 2026-03-18

📖 5 min leestijd🧠 Diepgaand

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, oude bibliotheek binnenstapt. Deze bibliotheek bevat niet alleen boeken, maar ook blauwdrukken, elektrische bedrading, en geheime codes die de stad laten werken. Je wilt weten: "Waar zit de hoofdschakelaar voor de verlichting in de bibliotheek?" of "Hoe werkt het systeem om nieuwe boeken in te voeren?"

De meeste moderne AI's (zoals grote taalmodellen) zijn als slimme bibliothecarissen die alles uit hun hoofd kennen. Ze hebben miljoenen boeken gelezen. Als je ze vraagt over een beroemd gebouw (zoals de Eiffeltoren), kunnen ze het antwoord uit hun hoofd reciteren. Maar als je ze vraagt over een klein, obscuur magazijn in de achterhoek van de bibliotheek, raken ze in de war. Ze proberen het antwoord te raden op basis van wat ze eerder hebben gelezen, wat vaak fout is.

Dit artikel, SWE-QA-Pro, lost precies dit probleem op. Het introduceert twee dingen: een nieuwe test en een nieuwe trainingsmethode.

Hier is de uitleg in simpele taal:

1. Het Probleem: De "Gedrukte" Bibliotheek

Tot nu toe waren tests voor AI's in softwareontwikkeling vaak te makkelijk. Ze gebruikten alleen bekende projecten (zoals de Eiffeltoren). De AI's "cheaten" door hun geheugen te gebruiken in plaats van echt te zoeken. Ze weten niet hoe ze door een nieuwe, onbekende bibliotheek moeten lopen om de schakelaar te vinden. Ze hebben geen agent nodig (een persoon die echt rondloopt en kijkt), ze proberen het gewoon te raden.

2. De Oplossing: SWE-QA-Pro (De Nieuwe Test)

De auteurs hebben een nieuwe test gemaakt die er als volgt uitziet:

De "Vergeten" Hoeken: In plaats van alleen beroemde gebouwen te testen, kiezen ze voor duizenden kleine, obscure magazijnen (de "lange staart" van software). Dit zorgt ervoor dat de AI niet kan raden, maar echt moet zoeken.
De "Vraag-Filter": Ze hebben een slimme filter toegevoegd. Als een AI het antwoord al uit haar hoofd weet (zonder te zoeken), wordt die vraag weggegooid. Alleen vragen die echt zoeken vereisen, blijven over.
De "Werkende Bibliotheek": Elke bibliotheek in deze test is "live". Je kunt er echt in lopen, de deuren openen en de bedrading bekijken. De AI moet dit ook doen.

De Analogie:
Stel je voor dat je een test doet voor een detective.

Oude test: "Wie heeft de moord gepleegd in het beroemde museum?" (De AI kent het antwoord uit de krant).
Nieuwe test (SWE-QA-Pro): "Vind de sleutel van de achterdeur in dit specifieke, kleine schuurtje in een dorpje dat niemand kent." De AI moet echt het schuurtje binnenlopen, de lades openen en de sleutel vinden.

3. De Training: Hoe leer je de AI om te zoeken?

Een AI die goed is in zoeken, moet anders worden getraind dan een AI die goed is in herinneren. De auteurs hebben een tweestapsplan bedacht, zoals het trainen van een hond:

Stap 1: De Basis (SFT - Supervised Fine-Tuning):
Je leert de AI eerst wat de tools zijn. "Als je iets zoekt, gebruik dan de zoekfunctie. Als je een bestand wilt zien, gebruik dan de 'bekijk'-knop." Het is alsof je de AI leert hoe je een kaartleest en hoe je een deur opent.
Stap 2: De Meester (RLAIF - Reinforcement Learning):
Nu laat je de AI oefenen. Als de AI de sleutel vindt, krijgt ze een beloning (een "sterretje"). Als ze verdwaalt of het verkeerde antwoord geeft, krijgt ze geen beloning.
- Het slimme trucje: Ze gebruiken een andere AI als "scheidsrechter" om te kijken of het antwoord goed is. Als de AI echt goed heeft gezocht en de juiste documenten heeft gevonden, krijgt ze extra punten. Dit dwingt de AI om niet alleen te praten, maar ook te handelen en te bewijzen.

4. Het Resultaat: Een Kleine AI die de Grote Verslaat

Het meest indrukwekkende resultaat is dit:
Ze hebben een relatief kleine, open-source AI (Qwen3-8B) getraind met deze methode.

Vóór de training: Deze kleine AI was niet beter dan de grote, dure AI's van bedrijven zoals OpenAI (GPT-4o).
Na de training: Deze kleine AI deed het beter dan de grote GPT-4o op deze specifieke test!

Waarom? Omdat de grote AI's vaak te veel vertrouwen op hun "geheugen" en te weinig op hun "zoekvaardigheid". De kleine AI, die specifiek is getraind om te zoeken en te redeneren, is in dit spelletje de meester geworden.

Samenvatting in één zin

De auteurs hebben een nieuwe, eerlijke test gemaakt voor AI's die echt moet zoeken in complexe software, en ze hebben bewezen dat je met slimme training een kleine, goedkope AI kunt maken die beter is in dit zoeken dan de duurste, grootste AI's die we nu hebben.

Het is alsof je een slimme, getrainde hond (de kleine AI) hebt die beter een verloren sleutel vindt in een groot bos dan een oude man die alleen maar probeert te raden waar de sleutel zou kunnen liggen (de grote AI).

SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding

1. Het Probleem: De "Gedrukte" Bibliotheek

2. De Oplossing: SWE-QA-Pro (De Nieuwe Test)

3. De Training: Hoe leer je de AI om te zoeken?

4. Het Resultaat: Een Kleine AI die de Grote Verslaat

Samenvatting in één zin

1. Het Probleem

2. Methodologie

A. De SWE-QA-Pro Benchmark

B. De Agent Workflow

C. Het Trainingsrecept (SFT → RLAIF)

3. Belangrijkste Resultaten

4. Bijdragen

5. Betekenis en Impact

SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding

1. Het Probleem: De "Gedrukte" Bibliotheek

2. De Oplossing: SWE-QA-Pro (De Nieuwe Test)

3. De Training: Hoe leer je de AI om te zoeken?

4. Het Resultaat: Een Kleine AI die de Grote Verslaat

Samenvatting in één zin

1. Het Probleem

2. Methodologie

A. De SWE-QA-Pro Benchmark

B. De Agent Workflow

C. Het Trainingsrecept (SFT → RLAIF)

3. Belangrijkste Resultaten

4. Bijdragen

5. Betekenis en Impact

Meer zoals dit

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context