Rollout Cards: A Reproducibility Standard for Agent Research

Dit artikel adresseert uitdagingen op het gebied van reproduceerbaarheid in agentenonderzoek door "rollout-kaarten" te introduceren, een gestandaardiseerd publicatieformaat dat ruwe rollout-records behoudt en expliciet rapportagemethoden declareert om een transparante en verifieerbare evaluatie van agentische systemen te waarborgen.

Oorspronkelijke auteurs: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Gepubliceerd 2026-05-13✓ Author reviewed
📖 6 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een voedselcriticus bent die een nieuw restaurant beoordeelt. De chef geeft je een scorekaart met de tekst: "Deze maaltijd scoort 9,5 van de 10." Maar de chef weigert je het daadwerkelijke eten, het recept of de notities te tonen over hoe ze die score hebben bepaald. Ze zeggen alleen: "Vertrouw me, het is een 9,5."

Stel je nu een andere criticus voor die precies dezelfde maaltijd proeft, maar een 6,0 geeft. Zonder het eten of het recept te zien, heb je geen enkele manier om te weten wie gelijk heeft. Heeft de eerste criticus een andere schaal gebruikt? Heeft ze de verbrande toast genegeerd? Heeft ze de dessert als onderdeel van het hoofdgerecht geteld?

Dit is precies het probleem dat Rollout Cards (uitrolkaarten) proberen op te lossen in de wereld van AI-"agenten" (slimme computerprogramma's die taken uitvoeren zoals het schrijven van code, browsen op het web of wiskundeproblemen oplossen).

Hier is een eenvoudige uiteenzetting van wat het paper zegt, met gebruikmaking van alledaagse analogieën:

Het Probleem: De "Black Box"-Score

Momenteel delen onderzoekers bij het publiceren van resultaten over AI-agenten meestal alleen de eindscore (de "9,5"). Ze gooien het uitrolrecord weg.

  • Het Uitrolrecord: Denk hierbij aan de volledige video-opname van de AI die de taak uitvoert. Het omvat elke stap die het heeft gezet, elk gereedschap waar het op heeft geklikt, elke fout die het heeft gemaakt, hoe lang het duurde en of het crashte of vastliep.
  • Het Probleem: Verschillende onderzoeksteams gebruiken verschillende "regels" om die video om te zetten in een score.
    • Team A kan zeggen: "Als de AI crasht, negeren we die poging."
    • Team B kan zeggen: "Als de AI crasht, telt dat als een nul."
    • Team C kan zeggen: "We tellen alleen het eindantwoord, en negeren de 50 stappen die nodig waren om daar te komen."

Het paper vond dat geen enkele van de 50 populaire AI-onderzoeksbibliotheken die ze controleerden, rapporteerde hoeveel pogingen faalden of crashten naast hun hoofdscore. Het is alsof een sportteam zegt: "We hebben 3 wedstrijden gewonnen!", maar verbergt dat ze 10 wedstrijden hebben verloren en alleen de 3 die ze wonnen hebben geteld.

Het Bewijs: Regels Veranderen het Spel

De auteurs hebben 50 verschillende AI-tools geaudit en 37 specifieke gevallen gevonden waarbij het veranderen van het "regelboek" de score volledig veranderde, zelfs al deed de AI precies hetzelfde.

  • Het "MMLU"-Voorbeeld: Hetzelfde AI-model (LLaMA-65B) behaalde een score van 63,7 onder één set regels en 48,8 onder een andere. Dat is een enorm verschil, puur vanwege de manier waarop de score werd berekend, niet omdat de AI veranderde.
  • Het "SWE-bench"-Voorbeeld: Bij taken op het gebied van software-engineering veranderde het al dan niet meetellen van "gefaalde pogingen" als onderdeel van het totaal of het weggooien ervan het slagingspercentage met 15,6 procentpunten.
  • Het "MLE-Bench"-Voorbeeld: Afhankelijk van of je een "slagen" definieert als het behalen van een gouden medaille of gewoon een voldoende, daalde het slagingspercentage van dezelfde AI-indieningen van 34,2% naar 13,3%.

Het paper betoogt dat we zonder de video-opname (de uitrol) niet kunnen zeggen of de AI echt beter is, of dat de onderzoeker gewoon een soepeler regelboek heeft gebruikt.

De Oplossing: De "Rollout Card"

Om dit op te lossen, stellen de auteurs een nieuwe standaard voor die een Rollout Card (uitrolkaart) heet.

Denk aan een Rollout Card als een transparante, vervalvrije receptenbox die je bij je eindgerecht moet voegen. Het bevat:

  1. De Volledige Video: Het volledige record van de acties, fouten en timing van de AI.
  2. Het Regelboek: Een duidelijke verklaring van precies hoe de score is berekend (bijvoorbeeld: "We hebben crashes genegeerd" of "We hebben elke token geteld").
  3. De "Ontbrekende Delen"-Lijst: Een eerlijke opmerking waarin staat: "We konden de volledige video niet delen vanwege privacy, dus hier is precies wat we hebben weggelaten."

Dit stelt andere wetenschappers in staat om naar dezelfde video te kijken en andere vragen te stellen. Misschien gaf het originele paper alleen om "Heeft het de taak voltooid?", maar wil een nieuwe onderzoeker vragen: "Heeft het te veel geld gebruikt?" of "Heeft het gevaarlijke tool-aanroepen gedaan?". Met de Rollout Card kunnen ze die vragen beantwoorden zonder het dure experiment opnieuw te hoeven uitvoeren.

Wat Ze Eigenlijk Hebben Gedaan (De Experimenten)

De auteurs hebben hier niet alleen over gepraat; ze hebben het getest met echte data:

  1. Het Opnieuw Ontdekken van Verborgen Inzichten: Ze namen vier bestaande openbare datasets (van tools zoals GAP, MAESTRO, COPRA en Tree-of-Thought) die eerder waren gepubliceerd. Door de Rollout Card-methode toe te passen, vonden ze nieuwe feiten die de originele papers hadden gemist.

    • Voorbeeld: Ze ontdekten dat 20% van de AI-antwoorden die er in tekst "veilig" uitzagen, in de achtergrond verboden tool-aanroepen deden. De originele score miste dit omdat ze alleen naar de tekst keken.
    • Voorbeeld: Ze ontdekten dat bij multi-agentteams "falen" eigenlijk veel meer coördinatie werk inhield dan "slagen", wat suggereert dat extra werk niet altijd betere antwoorden betekent.
  2. Het Opnieuw Beoordelen van Dezelfde Werk: Ze namen openbare AI-indieningen (zoals code-patches of wiskundige antwoorden) en scoorden ze opnieuw met verschillende regelboeken.

    • Resultaat: Het veranderen van alleen de scoringsregel veranderde de gerapporteerde scores met maximaal 20,9 procentpunten. In sommige gevallen draaide het de rangschikking om, waardoor een "slechtere" AI de "winnaar" leek, puur omdat het regelboek veranderde.

De Conclusie

Het paper concludeert dat het publiceren van alleen een score vergelijkbaar is met het publiceren van een cijfer voor een eindexamen zonder het tentamen. Het verbergt de details die er toe doen.

Door Rollout Cards in te voeren, willen de auteurs AI-onderzoek reproduceerbaar maken. Ze hebben al een gratis, open-source tool (genaamd ERGON) en 21 openbare datasets (Rollout Cards) vrijgegeven die taken bestrijken zoals software-engineering, webbrowsen en wiskunde. Dit stelt iedereen in staat om de "video-opname" achter de scores te inspecteren, zodat we wanneer we zeggen dat een AI slim is, eigenlijk weten waarom en hoe we het hebben gemeten.

Wat het paper NIET claimt:

  • Het claimt niet dat dit AI op zichzelf veiliger of krachtiger maakt.
  • Het claimt niet dat dit alle privacyproblemen oplost (je moet nog steeds beslissen wat je verbergt).
  • Het claimt niet dat dit een nieuwe manier is om AI te trainen; het is een nieuwe manier om de resultaten van AI-training te rapporteren en te auditeren.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →