SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grote, complexe stad bouwt. In deze stad zijn er twee belangrijke rollen: de bouwer (die nieuwe gebouwen of reparaties maakt) en de inspecteur (die controleert of het bouwwerk veilig is, voldoet aan de regels en niet instort).

Meestal testen we kunstmatige intelligentie (AI) die code schrijft alsof het een simpele quiz is: "Hier is een vraag, geef het juiste antwoord." Maar in de echte wereld werkt softwareontwikkeling niet zo. Het is een dynamisch proces van bouwen, controleren, fouten vinden, en opnieuw proberen.

SWINGARENA is een nieuw "speelveld" (een arena) voor AI-modellen, ontworpen om deze echte wereld na te bootsen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Arena: Een Gevecht tussen Bouwer en Inspecteur

In plaats van dat een AI alleen maar code schrijft, zet SWINGARENA twee AI's tegen elkaar in een duel:

De Aanbieder (Submitter): Deze AI probeert een probleem op te lossen door een stukje code (een "patch") te schrijven. Het is alsof hij een nieuw raam in een huis plaatst.
De Beoordelaar (Reviewer): Deze AI is de strenge inspecteur. Hij kijkt niet alleen of het raam past, maar probeert actief te vinden hoe het raam niet werkt. Hij bedenkt scenario's: "Wat als het stormt? Wat als het raam te zwaar is?" Hij schrijft tests om de oplossing te "testen".

Ze wisselen van rol. Soms is AI A de bouwer en AI B de inspecteur, en andersom. Ze blijven dit doen tot de code echt werkt en alle tests doorstaan. Dit simuleert hoe mensen samenwerken in softwarebedrijven.

2. Het Grote Probleem: De "Naaald in de Hooiberg"

Een van de grootste uitdagingen voor AI is het werken met enorme codebases (miljoenen regels code).

De Analogie: Stel je voor dat je een boek moet schrijven, maar je mag alleen 10 bladzijden meenemen uit een bibliotheek met 10.000 boeken. Als je de verkeerde bladzijden kiest, kun je het verhaal niet goed schrijven.
De Oplossing (RACG): SWINGARENA gebruikt een slimme "bibliothecaris" (een systeem genaamd RACG). Deze bibliothecaris kijkt naar het probleem, rent naar de bibliotheek, en pakt precies de juiste 10 bladzijden uit de juiste boeken om de AI te helpen. Zonder deze bibliothecaris zou de AI verdwalen in de chaos van de code.

3. De Echte Test: De "CI-Pijplijn"

In de echte wereld is het niet genoeg om te zeggen "het werkt op mijn computer". Je moet het door een automatische testmachine sturen.

In SWINGARENA wordt elke oplossing gecontroleerd door een CI-pijplijn (een geautomatiseerde fabrieksband). Deze machine controleert:
- Werkt het?
- Is het veilig?
- Past het bij de rest van het gebouw?
- Voldoet het aan de stijlvoorschriften (zoals netjes schrijven)?
  Als de code hierin faalt, is het niet goed, hoe slim de AI ook leek.

4. Wat hebben ze ontdekt?

De onderzoekers hebben gekeken naar hoe verschillende AI-modellen (zoals GPT-4o, Claude, en DeepSeek) het deden in deze arena:

Sommige AI's zijn agressieve bouwers: Ze maken snel veel veranderingen, maar soms zijn die veranderingen niet helemaal veilig of stabiel.
Sommige AI's zijn voorzichtige bouwers: Ze maken minder veranderingen, maar die zijn vaak sterker en gaan beter door de tests.
De rol van de inspecteur is cruciaal: Een strenge inspecteur kan een zwakke bouwer blootleggen. Als de inspecteur te makkelijk is, denkt de AI dat hij het goed doet, terwijl hij het eigenlijk niet is.

Waarom is dit belangrijk?

Vroeger testten we AI met simpele puzzels. SWINGARENA zegt: "Nee, laten we kijken of deze AI echt een goede software-ingenieur is." Het laat zien dat het niet alleen gaat om het schrijven van code, maar om het begrijpen van complexe systemen, het samenwerken met anderen (of andere AI's), en het doorstaan van strenge controle.

Kortom: SWINGARENA is een trainingskamp waar AI-modellen leren hoe ze in de echte, chaotische wereld van softwareontwikkeling moeten werken, met een strenge inspecteur die altijd op de loer ligt om fouten te vinden.

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

1. De Arena: Een Gevecht tussen Bouwer en Inspecteur

2. Het Grote Probleem: De "Naaald in de Hooiberg"

3. De Echte Test: De "CI-Pijplijn"

4. Wat hebben ze ontdekt?

Waarom is dit belangrijk?

Probleemstelling

Methodologie: SWINGARENA

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

1. De Arena: Een Gevecht tussen Bouwer en Inspecteur

2. Het Grote Probleem: De "Naaald in de Hooiberg"

3. De Echte Test: De "CI-Pijplijn"

4. Wat hebben ze ontdekt?

Waarom is dit belangrijk?

Probleemstelling

Methodologie: SWINGARENA

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance