SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nog jonge software-engineer hebt die je wilt trainen om fouten in computerprogramma's te repareren. Dit is precies wat het onderzoek SWE-Fuse doet.

Hier is een uitleg in gewone taal, met een paar creatieve vergelijkingen om het begrijpelijk te maken.

1. Het Probleem: Verkeerde Wegwijzers

Normaal gesproken leer je een computeragent (een programma dat zelfstandig werkt) door hem een probleem te geven met een duidelijke beschrijving: "Hier is de fout, hier is de oplossing."

Maar in de echte wereld is dat vaak niet zo perfect. Soms is de beschrijving van de fout verward, onnauwkeurig of zelfs compleet verkeerd.

De Analogie: Stel je voor dat je een student wilt leren autorijden. Je geeft hem een kaart, maar op die kaart staat: "Ga naar het station," terwijl het station al jaren gesloten is en er nu een supermarkt staat. Als de student blindelings naar die kaart kijkt, rijdt hij tegen een muur op.
In de paper: De onderzoekers merkten dat veel datasets voor software-reparatie dergelijke "verkeerde kaarten" bevatten. De beschrijving van de fout (de "issue") paste niet bij de werkelijke oplossing. Dit verwarde de AI en maakte haar minder slim.

2. De Oplossing: SWE-Fuse (De Slimme Mix)

Om dit op te lossen, hebben de onderzoekers SWE-Fuse bedacht. Het is een trainingsmethode die twee dingen combineert:

Leren met beschrijvingen: Waar de AI wel een probleem krijgt.
Leren zonder beschrijvingen (Issue-free): Waar de AI alleen de code en de testresultaten krijgt, en zelf moet uitzoeken wat er mis is.

De Analogie:
- Met beschrijving: Je geeft de student een opdracht: "Maak een taart, maar deeg is plakkerig."
- Zonder beschrijving: Je geeft de student alleen een bakje met deeg en zegt: "Probeer dit te bakken." Als het mislukt (het deeg plakt aan de pan), moet de student zelf bedenken: "Oh, ik heb te veel bloem gebruikt" of "Ik heb te lang gekneed."
- Het resultaat: Door ook te leren zonder de "verkeerde kaart" (de beschrijving), leert de AI echt nadenken over hoe code werkt, in plaats van alleen te raden op basis van een slechte hint.

3. De Twee Magische Ingrediënten

SWE-Fuse gebruikt twee slimme technieken om deze training te laten werken:

A. De "Reis zonder Wegbeschrijving" (Trajectory Learning)

De AI leert stap-voor-stap hoe ze een probleem moet oplossen. Ze mag niet direct naar de oplossing springen. Ze moet eerst kijken, testen, fouten maken en proberen het op te lossen.

De Analogie: Het is alsof je een detective bent die een moordzaak oplost. Je mag niet direct de dader aanwijzen. Je moet eerst het huis doorzoeken, vingerafdrukken nemen en getuigen horen. SWE-Fuse leert de AI precies die "detective-werkzaamheden" stap voor stap te doen, zelfs als niemand haar vertelt wat het misdrijf is.

B. De "Ademhalingstechniek" (Entropy-aware RLVR)

Tijdens het trainen moet de AI soms durven experimenteren (nieuwe dingen proberen) en soms voorzichtig zijn (niet te veel afwijken van wat ze al weet).

De Analogie: Stel je voor dat je een skateboarder bent.
- Als je zeker bent van je zaak (lage "entropie"), mag je niet te wild gaan, want dan val je. Je blijft dicht bij de rand van de helling.
- Als je onzeker bent (hoge "entropie"), moet je juist durven te springen en nieuwe trucs proberen, want je bent nog aan het leren.
- SWE-Fuse past dit automatisch aan. Als de AI twijfelt, geeft het haar meer vrijheid om te experimenteren. Als ze zeker is, houdt het haar op het rechte pad. Dit zorgt voor een stabiele en snelle leercurve.

4. Het Resultaat: Een Super-Student

De onderzoekers hebben hun methode getest op de beroemde SWE-bench, een soort olympiade voor software-reparatie.

De prestatie: Hun model (SWE-Fuse) deed het beter dan bijna alle andere open-source modellen, zelfs die veel groter waren.
De cijfers:
- Een klein model (8 miljard parameters) loste 43% van de problemen op (tegenover 39% voor de beste concurrent).
- Een middelgroot model (32 miljard parameters) loste 60% op.
- Met een extra trucje (meer tijd besteden aan het denken voor elke vraag) steeg dit zelfs naar 65%.

Samenvatting in één zin

SWE-Fuse is een slimme manier om AI-agenten te trainen om software-fouten op te lossen door ze niet alleen te laten vertrouwen op (vaak slechte) beschrijvingen, maar ze ook te laten leren door zelf te zoeken en te puzzelen, terwijl ze dynamisch leren wanneer ze moeten durven experimenteren en wanneer ze voorzichtig moeten zijn.

Het is alsof je een leerling niet alleen een antwoordboek geeft, maar hem ook laat zien hoe een meester-detective een zaak oplost, zodat hij de kunst van het probleemoplossen echt onder de knie krijgt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training" in het Nederlands.

Probleemstelling

Hoewel Large Language Models (LLM's) en software-automatiseringsagenten (zoals SWE-agent) aanzienlijke vooruitgang hebben geboekt in het oplossen van softwareproblemen, kampen ze met een fundamenteel probleem: onvoldoende hoge kwaliteit probleemomschrijvingen in real-world datasets.

Misalignement: In datasets zoals SWE-bench bestaan er vaak inconsistenties tussen de beschrijving van een issue en de bijbehorende oplossing (de "gold patch"). Zoals geïllustreerd in Figuur 2 van het paper, kan een issue beschrijven een probleem met waarschuwingen (warnings), terwijl de correcte patch eigenlijk de logica voor het opslaan van TIFF-afbeeldingen aanpast.
Ruis en Ambiguïteit: Deze discrepanties introduceren ruis die agents misleidt, waardoor ze inefficiënte zoekpaden bewandelen of de verkeerde code aanpassen.
Data Schaarste: Hoogwaardige paren van issue-omschrijving en pull-request (PR) zijn moeilijk in grote schaal te verkrijgen. Bestaande datasets bevatten vaak lege probleemstellingen of onnauwkeurige beschrijvingen.

Methodologie: SWE-Fuse Framework

SWE-Fuse is een trainingsframework dat specifiek is ontworpen om software-agenten te trainen door zowel issue-geleide als issue-vrije samples te combineren. Het framework bestaat uit twee kernmodules:

1. Issue-Free-Driven Trajectory Learning Module

Deze module is ontworpen om het model te leren redeneren zonder afhankelijk te zijn van potentiële misleidende tekstuele beschrijvingen.

Multi-stap Traject Constructie: Het systeem genereert hoogwaardige multi-turn redenerings- en actie-trajecten. Het gebruikt een "teacher" agent (Gemini 3) om trajecten te genereren in een sandbox-omgeving, waarbij expliciete redeneringstokens (<THOUGHT>) worden ingebracht om het leerproces te structureren.
Data Filtering:
- Git Exploitatie Preventie: Trajecten die git-commands gebruiken om de ground-truth patch te achterhalen (bijv. via git log of git show), worden gefilterd om te voorkomen dat het model de benchmark "hackt".
- Regelgebaseerde Filtering: Trajecten met te weinig interacties, ontbrekende redeneringstappen of niet-Engelse content worden verwijderd.
Issue-Free Supervised Fine-Tuning (SFT): Een cruciaal onderdeel is het gebruik van een subset van samples zonder issue-omschrijvingen. In plaats daarvan krijgt het model alleen de testcases en de repository. Het model moet het probleem zelfstandig identificeren door stap-voor-stap te debuggen. Dit helpt het model om te leren focussen op de feitelijke code en testresultaten in plaats van te vertrouwen op mogelijk onnauwkeurige tekstuele hints.

2. Entropy-aware RLVR Training Module

Na de SFT-fase wordt Reinforcement Learning met Verifieerbare Beloningen (RLVR) toegepast om het beleid (policy) te verfijnen.

RLOO (Reward Leave-One-Out): In plaats van een criticus-model te gebruiken, wordt de beloning berekend door de gemiddelde beloning van een groep van $G$ gegenereerde trajecten te vergelijken, waarbij het huidige traject wordt uitgesloten. Dit vermindert de variantie in de schatting van het voordeel (advantage).
Entropie-gevoelige Clipping: Traditionele RL-methoden gebruiken vaak een vaste clipping-grens (zoals in PPO). SWE-Fuse introduceert een dynamische aanpak gebaseerd op de entropie van het model:
- Hoge Entropie (Onzekerheid): Het model is onzeker. De clipping-grens wordt versoepeld (grotere $\epsilon$ ) om exploratie te stimuleren.
- Lage Entropie (Zekerheid): Het model is zeker. De clipping-grens wordt strenger (kleinere $\epsilon$ ) om te voorkomen dat het beleid te snel afwijkt en stabiliteit te behouden.
- Dit mechanisme zorgt voor een adaptieve trainingsdynamiek die zowel exploratie als stabiliteit optimaliseert.

Belangrijkste Bijdragen

SWE-Fuse Framework: Een nieuw trainingsparadigma dat issue-geleide en issue-vrije data fuseert, waardoor modellen robuuster worden tegen ruis in probleemomschrijvingen.
SWE-Fuse Trajectory Dataset: Een publiek beschikbare dataset van 14.000 gevalideerde en correcte trajecten, opgebouwd uit zowel samples met als zonder issue-omschrijvingen.
Entropy-aware RLVR: Een innovatieve RLVR-methode die clipping aanpast op basis van modelonzekerheid, wat leidt tot stabielere en snellere convergentie.
State-of-the-Art Prestaties: Het bereiken van nieuwe records voor open-source modellen op de SWE-bench Verified benchmark.

Resultaten

De prestaties zijn geëvalueerd op de SWE-bench Verified benchmark, een standaard voor het testen van software-agenten op real-world GitHub issues.

Open-Source Modellen:
- SWE-Fuse-8B: Bereikte een oplossingspercentage (solve rate) van 43,0%, wat een verbetering is van 9,1% ten opzichte van de beste bestaande 8B-baselines.
- SWE-Fuse-32B: Bereikte een oplossingspercentage van 60,2%, een verbetering van 11,7% ten opzichte van de beste 32B-baselines.
- Met Test-Time Scaling (TTS) (waarbij meerdere pogingen worden gedaan tijdens het testen) stijgt de prestatie van de 32B-modellen naar 65,2%.
Vergelijking met Gesloten Bronmodellen: SWE-Fuse presteert concurrerend met gesloten modellen zoals OpenAI-o3 (58,4%) en benadert de prestaties van grotere modellen (zoals Claude-4-Sonnet en GPT-5), ondanks dat het een 32B-parameter model is.
Ablatie Studies:
- Data Schaal: Meer trainingsdata leidt tot betere prestaties, maar er is sprake van afnemende meeropbrengst na 8k-14k samples.
- Issue-Free Ratio: Een mix van 25-50% issue-vrije samples bleek optimaal. Een te hoge ratio (>75%) leidde tot prestatieverlies, wat aangeeft dat context belangrijk blijft, maar issue-vrije data essentieel is om ruis te mitigeren.
- Git Hacking: Analyse toonde aan dat het model de oplossingen vond door echte redenering en niet door het exploiteren van git-historie in de sandbox.

Betekenis en Impact

SWE-Fuse markeert een belangrijke stap in de ontwikkeling van autonome software-engineering-agenten.

Robuustheid: Het demonstreert dat het trainen op "issue-vrije" trajecten (waar het model zelf het probleem moet diagnosticeren op basis van testfailures) cruciaal is om de afhankelijkheid van vaak onnauwkeurige menselijke beschrijvingen te doorbreken.
Efficiëntie: Het framework toont aan dat kleinere modellen (32B) met de juiste trainingsstrategie (SFT + Entropy-aware RLVR) kunnen concurreren met veel grotere en duurdere modellen.
Reproduceerbaarheid: Door het vrijgeven van de dataset en het framework, biedt het een solide basis voor toekomstig onderzoek in het domein van geautomatiseerde software-onderhoud en bugfixing.

Kortom, SWE-Fuse bewijst dat door de focus te verleggen van het interpreteren van tekstuele beschrijvingen naar het systematisch debuggen van code op basis van testresultaten, software-agenten aanzienlijk effectiever kunnen worden in het oplossen van complexe, real-world softwareproblemen.