Oorspronkelijke auteurs: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Gepubliceerd 2026-05-13✓ Author reviewed ⓘ

📖 6 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een voedselcriticus bent die een nieuw restaurant beoordeelt. De chef geeft je een scorekaart met de tekst: "Deze maaltijd scoort 9,5 van de 10." Maar de chef weigert je het daadwerkelijke eten, het recept of de notities te tonen over hoe ze die score hebben bepaald. Ze zeggen alleen: "Vertrouw me, het is een 9,5."

Stel je nu een andere criticus voor die precies dezelfde maaltijd proeft, maar een 6,0 geeft. Zonder het eten of het recept te zien, heb je geen enkele manier om te weten wie gelijk heeft. Heeft de eerste criticus een andere schaal gebruikt? Heeft ze de verbrande toast genegeerd? Heeft ze de dessert als onderdeel van het hoofdgerecht geteld?

Dit is precies het probleem dat Rollout Cards (uitrolkaarten) proberen op te lossen in de wereld van AI-"agenten" (slimme computerprogramma's die taken uitvoeren zoals het schrijven van code, browsen op het web of wiskundeproblemen oplossen).

Hier is een eenvoudige uiteenzetting van wat het paper zegt, met gebruikmaking van alledaagse analogieën:

Het Probleem: De "Black Box"-Score

Momenteel delen onderzoekers bij het publiceren van resultaten over AI-agenten meestal alleen de eindscore (de "9,5"). Ze gooien het uitrolrecord weg.

Het Uitrolrecord: Denk hierbij aan de volledige video-opname van de AI die de taak uitvoert. Het omvat elke stap die het heeft gezet, elk gereedschap waar het op heeft geklikt, elke fout die het heeft gemaakt, hoe lang het duurde en of het crashte of vastliep.
Het Probleem: Verschillende onderzoeksteams gebruiken verschillende "regels" om die video om te zetten in een score.
- Team A kan zeggen: "Als de AI crasht, negeren we die poging."
- Team B kan zeggen: "Als de AI crasht, telt dat als een nul."
- Team C kan zeggen: "We tellen alleen het eindantwoord, en negeren de 50 stappen die nodig waren om daar te komen."

Het paper vond dat geen enkele van de 50 populaire AI-onderzoeksbibliotheken die ze controleerden, rapporteerde hoeveel pogingen faalden of crashten naast hun hoofdscore. Het is alsof een sportteam zegt: "We hebben 3 wedstrijden gewonnen!", maar verbergt dat ze 10 wedstrijden hebben verloren en alleen de 3 die ze wonnen hebben geteld.

Het Bewijs: Regels Veranderen het Spel

De auteurs hebben 50 verschillende AI-tools geaudit en 37 specifieke gevallen gevonden waarbij het veranderen van het "regelboek" de score volledig veranderde, zelfs al deed de AI precies hetzelfde.

Het "MMLU"-Voorbeeld: Hetzelfde AI-model (LLaMA-65B) behaalde een score van 63,7 onder één set regels en 48,8 onder een andere. Dat is een enorm verschil, puur vanwege de manier waarop de score werd berekend, niet omdat de AI veranderde.
Het "SWE-bench"-Voorbeeld: Bij taken op het gebied van software-engineering veranderde het al dan niet meetellen van "gefaalde pogingen" als onderdeel van het totaal of het weggooien ervan het slagingspercentage met 15,6 procentpunten.
Het "MLE-Bench"-Voorbeeld: Afhankelijk van of je een "slagen" definieert als het behalen van een gouden medaille of gewoon een voldoende, daalde het slagingspercentage van dezelfde AI-indieningen van 34,2% naar 13,3%.

Het paper betoogt dat we zonder de video-opname (de uitrol) niet kunnen zeggen of de AI echt beter is, of dat de onderzoeker gewoon een soepeler regelboek heeft gebruikt.

De Oplossing: De "Rollout Card"

Om dit op te lossen, stellen de auteurs een nieuwe standaard voor die een Rollout Card (uitrolkaart) heet.

Denk aan een Rollout Card als een transparante, vervalvrije receptenbox die je bij je eindgerecht moet voegen. Het bevat:

De Volledige Video: Het volledige record van de acties, fouten en timing van de AI.
Het Regelboek: Een duidelijke verklaring van precies hoe de score is berekend (bijvoorbeeld: "We hebben crashes genegeerd" of "We hebben elke token geteld").
De "Ontbrekende Delen"-Lijst: Een eerlijke opmerking waarin staat: "We konden de volledige video niet delen vanwege privacy, dus hier is precies wat we hebben weggelaten."

Dit stelt andere wetenschappers in staat om naar dezelfde video te kijken en andere vragen te stellen. Misschien gaf het originele paper alleen om "Heeft het de taak voltooid?", maar wil een nieuwe onderzoeker vragen: "Heeft het te veel geld gebruikt?" of "Heeft het gevaarlijke tool-aanroepen gedaan?". Met de Rollout Card kunnen ze die vragen beantwoorden zonder het dure experiment opnieuw te hoeven uitvoeren.

Wat Ze Eigenlijk Hebben Gedaan (De Experimenten)

De auteurs hebben hier niet alleen over gepraat; ze hebben het getest met echte data:

Het Opnieuw Ontdekken van Verborgen Inzichten: Ze namen vier bestaande openbare datasets (van tools zoals GAP, MAESTRO, COPRA en Tree-of-Thought) die eerder waren gepubliceerd. Door de Rollout Card-methode toe te passen, vonden ze nieuwe feiten die de originele papers hadden gemist.
- Voorbeeld: Ze ontdekten dat 20% van de AI-antwoorden die er in tekst "veilig" uitzagen, in de achtergrond verboden tool-aanroepen deden. De originele score miste dit omdat ze alleen naar de tekst keken.
- Voorbeeld: Ze ontdekten dat bij multi-agentteams "falen" eigenlijk veel meer coördinatie werk inhield dan "slagen", wat suggereert dat extra werk niet altijd betere antwoorden betekent.
Het Opnieuw Beoordelen van Dezelfde Werk: Ze namen openbare AI-indieningen (zoals code-patches of wiskundige antwoorden) en scoorden ze opnieuw met verschillende regelboeken.
- Resultaat: Het veranderen van alleen de scoringsregel veranderde de gerapporteerde scores met maximaal 20,9 procentpunten. In sommige gevallen draaide het de rangschikking om, waardoor een "slechtere" AI de "winnaar" leek, puur omdat het regelboek veranderde.

De Conclusie

Het paper concludeert dat het publiceren van alleen een score vergelijkbaar is met het publiceren van een cijfer voor een eindexamen zonder het tentamen. Het verbergt de details die er toe doen.

Door Rollout Cards in te voeren, willen de auteurs AI-onderzoek reproduceerbaar maken. Ze hebben al een gratis, open-source tool (genaamd ERGON) en 21 openbare datasets (Rollout Cards) vrijgegeven die taken bestrijken zoals software-engineering, webbrowsen en wiskunde. Dit stelt iedereen in staat om de "video-opname" achter de scores te inspecteren, zodat we wanneer we zeggen dat een AI slim is, eigenlijk weten waarom en hoe we het hebben gemeten.

Wat het paper NIET claimt:

Het claimt niet dat dit AI op zichzelf veiliger of krachtiger maakt.
Het claimt niet dat dit alle privacyproblemen oplost (je moet nog steeds beslissen wat je verbergt).
Het claimt niet dat dit een nieuwe manier is om AI te trainen; het is een nieuwe manier om de resultaten van AI-training te rapporteren en te auditeren.

Technische Samenvatting: Rollout Cards: Een Reproduceerbaarheidsstandaard voor Agentonderzoek

Probleemstelling

Het artikel identificeert een kritieke reproduceerbaarheidscrisis die opkomt in het onderzoek naar agenten, vergelijkbaar met historische problemen in machine learning en versterkende learning. De huidige praktijken geven prioriteit aan het publiceren van gerapporteerde scores (bijvoorbeeld nauwkeurigheid, slaagpercentages) terwijl de onderliggende rollout-records (de volledige trace van interacties tussen agent en omgeving) en de specifieke rapporteringsregels die worden gebruikt om die scores te berekenen, worden weggegooid.

Deze fragmentatie leidt tot twee primaire faalmodi:

Opnamefaal: Rollout-batches worden één keer gescoord en vervolgens weggegooid. Zonder de ruwe records kunnen latere onderzoekers dezelfde episodes niet opnieuw analyseren om gedragingen te bestuderen die in het oorspronkelijke rapport zijn weggelaten (bijvoorbeeld veiligheidschendingen bij tool-aanroepen, coördinatie- overhead in multi-agent systemen) of nieuwe perspectieven op de data toe te passen. Het opnieuw uitvoeren van deze experimenten is vaak onbetaalbaar duur vanwege de stijgende kosten van inferentie met frontier-modellen en de snelle veroudering van evaluatie-scaffolds.
Rapporteringsfaal: Rapporteringsregels (de procedures die views van rollouts omzetten in scores) variëren tussen frameworks en worden zelden onthuld. Dit leidt tot aanzienlijke scoreverschillen voor identieke onderliggende gedragingen. De audit van de auteurs van 50 populaire repositories toonde aan dat geen enkele rapportage van mislukte, foutieve of overgeslagen rollouts vergezeld gaat van de kop-scores. Bovendien documenteerden zij 37 gevallen waarin verschillende rapporteringsregels (bijvoorbeeld token-accounting, afhandeling van mislukkingen, prompt-sjablonen) leidden tot dramatische scorevariaties, waarbij soms de rangschikking van modellen of succespercentages met meer dan 20 procentpunten veranderden.

Methodologie

De auteurs stellen een verschuiving voor in de eenheid van reproduceerbaarheid, van de "gerapporteerde score" naar het rollout-record, gekoppeld aan expliciete verklaringen over hoe dat record wordt verwerkt.

De Rollout Card

De kernbijdrage is de Rollout Card, een publicatiebundel ontworpen als een minimaal-toereikende specificatie. Deze bestaat uit:

Rollout Record: Een zelfbeschrijvend archief dat het bewijs van de episode bevat: taakspecificatie, omgevingsstatus, agent-acties (berichten, tool-aanroepen), artefacten, timing en terminale status. Cruciaal is dat het mislukkingen behandelt als statuswijzigingen binnen het record, in plaats van als uitzonderingen die het loggen omzeilen.
Rapporteringsregelregister: Een verklaring van elke view en elke rapporteringsregel die op het record is toegepast om een gerapporteerde score te genereren, inclusief implementatiedetails en versies.
Drops-manifest: Een getypeerd record dat specificeert welke velden, rijen of streams door een specifieke analyse zijn gelezen, gefilterd of samengevoegd. Dit documenteert expliciet welke informatie is weggelaten, zodat toekomstige onderzoekers de beperkingen van een gerapporteerde view kunnen begrijpen.
Release-bereik metadata: Verklaringen met betrekking tot redactie, licenties en toegangsbeperkingen.

De auteurs hebben een referentiespecificatie geïmplementeerd in ERGON, een open-source versterkende learning-gym, die fungeert als een lichtgewicht dataset-adapter om deze bundels te valideren, te mappen en te exporteren.

Empirische Evaluatie

Het artikel valideert de bruikbaarheid van Rollout Cards via twee retrospectieve experimenten met openbare artefacten:

RQ1 (Hergebruikbaarheid van bewaarde records): De auteurs analyseerden vier openbare releases (GAP, MAESTRO, COPRA miniF2F-logboeken en Tree-of-Thought) die voldoende rollout-bewijs bewaarden. Zij berekenden secundaire analyses die in de oorspronkelijke artikelen niet werden gerapporteerd:
- GAP: Gevonden dat 20,6% van de antwoorden die als "tekst-veilig" werden gecertificeerd, daadwerkelijk verboden tool-aanroepen bevatten, een faal dat onzichtbaar was voor veiligheidscores die alleen op tekst zijn gebaseerd.
- MAESTRO: Toonde aan dat mislukte multi-agent runs 5 keer meer coördinatie-omvang en 7 keer meer tokens vereisten dan succesvolle runs, wat in strijd is met de aanname dat extra samenwerking altijd de uitkomsten verbetert.
- COPRA: Toonde aan dat uitgebreide bewijszoekstappen negatief correleerden met succes, wat suggereert dat herhaalde stappen vaak wijzen op mislukte herstelprocedures in plaats van nuttig redeneren.
- Tree-of-Thought: Demonstreerde dat snoeistrategieën de uiteindelijke beloningen konden behouden terwijl ze tegelijkertijd de verspilde exploratie aanzienlijk verminderden, een nuance die door alleen de uiteindelijke beloningsmetrieken verborgen bleef.
RQ2 (Impact van rapporteringsregels): De auteurs hielden benchmark-artefacten vast (bijvoorbeeld GPT-4o-indieningen voor SWE-bench, Kaggle-indieningen voor MLE-Bench) en pasten alternatieve rapporteringsregels toe.
- Het wijzigen van de definitie van "succes" of de afhandeling van ontbrekende patches in SWE-bench veranderde het gerapporteerde vermogensverschil tussen agenten met 2,3 procentpunten.
- Het wijzigen van de grader op $\tau$ -bench keerde de rangschikking van frontier-modellen (GPT-4o versus Claude 3.5 Sonnet) om met 16,9 procentpunten.
- Het wijzigen van de medaille/slaag-definitie voor MLE-Bench liet het slagpercentage dalen van 34,2% naar 13,3% (een verschil van 20,9 punten).

Belangrijkste Bijdragen

Diagnose van publicatiefalen: Een gestructureerde audit van 50 repositories en een catalogus van 37 rapporteringsregel-discrepanties die aantonen dat huidige praktijken mislukkingen verbergen en het conventie-gedreven karakter van scorekloven verduisteren.
Rollout Card-specificatie: Een formele publicatiestandaard die het rollout-record bewaart, de toegepaste views en regels verklaart en weglatingen documenteert via drops-manifesten.
Referentie-implementatie en data-release: Een open-source implementatie in ERGON en de openbare release van 21 rollout-card-exporten (17 trace-publicatie-exporten en 4 analytische/herwonnen-view-exporten) die toolgebruik, software-engineering, veiligheid en zoektochten bestrijken.

Resultaten

Wetenschappelijk hergebruik: Bewaarde rollout-records maakten het mogelijk om veiligheidsmislukkingen, coördinatie-overhead en zoekinefficiënties te ontdekken die niet zichtbaar waren in de oorspronkelijk gerapporteerde scores.
Conventiegevoeligheid: De experimenten bevestigden dat rapporteringsregels niet neutraal zijn; het wijzigen ervan op vast bewijs kan gerapporteerde scores met maximaal 20,9 procentpunten veranderen en modelrangschikkingen omkeren.
Transparantie: De Rollout Card-structuur maakt de "black box" van evaluatie transparant, waardoor menoneenigheden kunnen worden teruggevoerd naar specifieke rapporteringskeuzes in plaats van naar ambigu modelgedrag.

Betekenis en Claims

Het artikel beweert dat het publiceren van alleen scores slechts een fractie van de waarde van agentexperimenten onttrekt. Door rollout-records te behandelen als de eenheid van reproduceerbaarheid, kan de gemeenschap:

Het opnameprobleem mitigeren: Nieuwe wetenschappelijke vragen stellen aan bestaande, dure data zonder frontier-agenten opnieuw te hoeven draaien.
Het rapporteringsprobleem mitigeren: Conventie-gedreven scoreveranderingen inspecteerbaar maken, zodat onderzoekers onderscheid kunnen maken tussen agentgedrag en de regels die worden gebruikt om het te registreren.

De auteurs zijn bescheiden over de reikwijdte en merken op dat Rollout Cards geen selectieve metriekkeuze, privacybeperkingen of redactie voorkomen. In plaats daarvan is hun rol om het record, de regel en de weglatingen inspecteerbaar te maken, zodat menoneenigheden kunnen worden teruggevoerd naar bewaard bewijs, rapporteringskeuzes of daadwerkelijk agentgedrag. Het werk beoogt toekomstig onderzoek, meta-analyses en vergelijkingen van rapporteringsregels te ondersteunen zonder dat er nieuwe, dure frontier-rollout-budgetten nodig zijn.

Rollout Cards: A Reproducibility Standard for Agent Research