Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat wetenschappers over de hele wereld nieuwe uitvindingen voor de digitale veiligheid (zoals een nieuwe manier om hackers te stoppen) bedenken. Ze schrijven hierover papers en sturen deze naar grote conferenties. Maar hoe weten de juryleden (de reviewers) of deze uitvindingen echt werken?

Vroeger was dit een enorme klus. De juryleden moesten zelf de code downloaden, proberen te installeren, en hopen dat het niet vastliep. Het was alsof je een auto koopt zonder hem te kunnen starten: je hoopt dat hij rijdt, maar je weet het niet zeker. Dit proces heet Artifact Evaluation (het beoordelen van de "bewijsstukken"). Het is echter zo veel werk dat het niet meer opgewassen is tegen de stroom aan inzendingen.

De auteurs van dit paper hebben een slimme oplossing bedacht: ze gebruiken AI (grote taalmodellen) om deze klus te automatiseren. Ze hebben een digitaal hulpmiddel gebouwd dat als een slimme assistent fungeert voor de juryleden.

Hier is hoe hun systeem werkt, vertaald naar drie simpele stappen met een creatieve analogie:

De Drie Stappen van de Slimme Assistent

Stel je voor dat de juryleden een bende detectives zijn die een mysterie moeten oplossen. De AI-assistent is hun nieuwe, super-snelle stagiair die het zware werk voor hen doet.

1. De "Snuffel-Test" (RATE)

Het probleem: Soms is een paper zo vaag geschreven of de instructies zo slecht, dat het al duidelijk is dat de code nooit zal werken. De detectives willen hier geen tijd aan verspillen.
De oplossing: De AI leest de paper en de handleiding (de "Readme") en kijkt of er "reproductie-indicatoren" zijn.
De Analogie: Het is alsof de AI een geurtest doet. Als de paper ruikt naar "onduidelijkheid" en "geen instructies", zegt de AI: "Dit gaat nooit werken, gooi het eruit."
Het resultaat: De AI kan bijna 95% van de papers die wel werken, herkennen en filtert de slechte eruit. Dit bespaart de detectives enorm veel tijd.

2. De "Proefkeuken" (PREPARE)

Het probleem: Als de paper er goed uitziet, moeten de detectives de code eigenlijk uitproberen. Maar elke code heeft zijn eigen rare eisen (specifieke software, oude besturingssystemen). Het opzetten van deze omgeving is als het bouwen van een compleet nieuwe keuken voor elke nieuwe chef-kok die je wilt testen.
De oplossing: De AI wordt een robot-kok. Hij krijgt de code en de instructies, bouwt een veilige, afgesloten "keuken" (een digitale container) en probeert het gerecht (de code) te bereiden.
De Analogie: De AI is een automatische monteur die in een garage staat. Hij probeert de auto (de code) te starten. Als hij een bout mist of de brandstof verkeerd is, probeert hij het zelf te repareren.
Het resultaat: De AI slaagt erin om voor ongeveer 28% van de papers een werkende omgeving op te zetten, zonder dat een mens er ook maar één muisklik voor hoeft te doen. Als het mislukt, geeft hij een gedetailleerd verslag van waarom het mislukte, zodat de menselijke detective dat snel kan oplossen.

3. De "Realiteitscheck" (ASSESS)

Het probleem: Zelfs als de code werkt, kan de wetenschap erachter "slecht" zijn. Misschien hebben ze alleen getest in een laboratorium (niet in de echte wereld) of hebben ze de cijfers op een slimme manier gemanipuleerd.
De oplossing: De AI kijkt niet alleen naar de code, maar naar de verhaallijn van het onderzoek. Hij zoekt naar bekende valkuilen in de wetenschap.
De Analogie: Dit is als een critische recensent die een film bekijkt. Hij zegt niet alleen "de camera werkt", maar vraagt: "Is het verhaal logisch? Hebben ze de slechterik niet te makkelijk laten winnen? Is het scenario realistisch?"
Het resultaat: De AI kan met een nauwkeurigheid van meer dan 90% zeggen of een onderzoek "valkuilen" bevat, zoals het testen op onrealistische data.

Waarom is dit belangrijk?

Vroeger was het beoordelen van deze papers een moeizame wandeling door een modderpoel. Het duurde lang, was vermoeiend, en veel goede ideeën werden gemist omdat ze te veel werk kostten om te verifiëren.

Met deze AI-tool wordt het proces:

Sneller: De AI doet het saaie, repetitieve werk.
Betrouwbaarder: De AI maakt minder fouten door vermoeidheid dan een mens.
Duurzamer: Wetenschappers worden gestimuleerd om hun werk beter te documenteren, omdat ze weten dat de AI het zal controleren.

Kortom: De auteurs hebben een digitale "super-assistent" gebouwd die de juryleden helpt om de echte diamanten te vinden in een berg ruwe stenen, zonder dat de diamanten zelf hoeven te worden opgegraven door de mensen. Dit maakt de wereld van cybersecurity veiliger en transparanter voor iedereen.

Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers

De Drie Stappen van de Slimme Assistent

1. De "Snuffel-Test" (RATE)

2. De "Proefkeuken" (PREPARE)

3. De "Realiteitscheck" (ASSESS)

Waarom is dit belangrijk?

Probleemstelling

Methodologie: Een LLM-gedreven Pipeline

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers

De Drie Stappen van de Slimme Assistent

1. De "Snuffel-Test" (RATE)

2. De "Proefkeuken" (PREPARE)

3. De "Realiteitscheck" (ASSESS)

Waarom is dit belangrijk?

Probleemstelling

Methodologie: Een LLM-gedreven Pipeline

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance