Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat de wereld van wetenschappelijk onderzoek een enorme, drukke postkamer is. Elke dag komen er duizenden brieven binnen: onderzoeksvoorstellen van wetenschappers die geld willen voor hun ideeën. Maar er is een groot probleem: er zijn niet genoeg mensen om al die brieven te lezen. Het is alsof je probeert een oceaan water te drinken met een theelepel. Dit noemen de auteurs een "Malthusiaanse val": er is steeds meer vraag, maar de capaciteit om te beoordelen groeit niet mee.

Om dit op te lossen, denken veel mensen: "Laten we AI (kunstmatige intelligentie) erbij halen!" Maar werkt dat echt? Dat is precies wat dit paper onderzoekt. De auteurs hebben gekeken of slimme computers (LLMs) goed genoeg zijn om deze dure onderzoeksprojecten te beoordelen.

Hier is de samenvatting in begrijpelijke taal, met een paar creatieve vergelijkingen:

1. Het Experiment: De "Vervalste" Brieven

Omdat echte onderzoeksvoorstellen geheim zijn (net als een geheim recept voor een nieuwe drank), konden de auteurs geen echte brieven gebruiken om de AI te testen. In plaats daarvan hebben ze een slim trucje bedacht, noem het "De Vervalste Brief".

De Opzet: Ze namen 6 echte, goede voorstellen en maakten er opzettelijk slechte versies van.
De Vervalsingen: Ze veranderden kleine details om fouten te simuleren.
- Voorbeeld: Ze haalden de uitleg van afkortingen weg (alsof je een brief schrijft in een taal die niemand begrijpt).
- Voorbeeld: Ze maakten het budget onrealistisch (alsof je vraagt om een miljoen euro voor een fiets).
- Voorbeeld: Ze veranderden de tijdlijn (alsof je zegt dat je een brug in één dag bouwt).
De Test: Vervolgens gaven ze deze "vervalste" brieven aan verschillende AI-systemen en vroegen: "Zie jij de fout?"

2. De Drie AI-Strategieën

De auteurs testten drie manieren waarop de AI de brieven kon lezen, vergelijkbaar met drie verschillende manieren om een boek te lezen:

De Snelle Lezer (Baseline): De AI leest het hele document in één keer, snel voorbij.
- Resultaat: Vaak mist hij de details. Het is alsof je een heel boek in één seconde probeert te scannen; je ziet de hoofdpunten, maar mist de kleine foutjes.
De Detailleerder (Section-Level): De AI leest het boek hoofdstuk voor hoofdstuk. Eerst het budget, dan het team, dan de ethiek.
- Resultaat: Dit was de winnaar. Door zich te focussen op één stukje tegelijk, zag deze AI veel meer fouten en gaf hij een betrouwbaarder oordeel.
De Raad van Experts (Council of Personas): Dit was een ingewikkelde setup. Ze lieten één AI spelen als vijf verschillende mensen: een "Geldman", een "Ethische Waakhond", een "Tech-enthousiasteling", een "Scepticus" en een "Impact-advocaat". Deze vijf "personas" bespraken het onderling en gaven een gezamenlijk oordeel.
- Resultaat: Dit was een dure mislukking. Het kostte enorm veel tijd en rekenkracht, maar het resultaat was niet beter dan de simpele "Snelle Lezer". Het was alsof je vijf mensen bij elkaar roept om een brief te lezen, maar ze praten zo veel met elkaar dat ze de brief vergeten.

3. Wat Vonden Ze? (De Verassingen)

De AI is goed in "Strategische" fouten, slecht in "Duidelijkheid":
De AI zag heel goed als het budget niet paste bij het doel of als het project niet paste bij de uitnodiging. Maar als de tekst onduidelijk was (bijvoorbeeld: "We gebruiken een nieuw systeem" zonder uitleg wat dat systeem is), zag de AI dit niet.
- Vergelijking: De AI is als een accountant die ziet dat de bedragen niet kloppen, maar blind is voor slecht geschreven zinnen. Hij vult de gaten in de tekst op in plaats van te zeggen: "Hé, dit is onduidelijk!"
De AI is te positief en te gericht op regels:
Menselijke reviewers kijken naar het grote plaatje: "Is dit een briljant idee dat de wereld kan veranderen?" De AI kijkt meer naar: "Zijn de regels gevolgd? Is het budget correct?"
- Vergelijking: Een menselijke reviewer is als een chef-kok die proeft of de soep lekker is. De AI is als een keurmeester die alleen kijkt of de soep in de juiste kom zit en of het etiket correct is.
De "Council" (Raad) was te duur:
Het idee om verschillende AI-persona's te laten samenwerken klinkt geweldig, maar in de praktijk was het te traag en leverde het geen betere resultaten op. Soms is "less is more".

4. De Conclusie: AI als Hulp, niet als Baas

De auteurs concluderen dat we AI niet kunnen gebruiken om onderzoeksvoorstellen volledig zelfstandig te beoordelen. De AI is nog niet slim genoeg om de "ziel" van een onderzoek te begrijpen of om te zien of een idee echt nieuw is.

Maar... AI kan wel een heel nuttige assistent zijn.

Denk aan AI als een stefan (assistent) die voor de menselijke beoordelaar de administratie checkt: "Heeft de aanvrager het budget correct ingevuld? Zijn de afkortingen uitgelegd? Klopt de tijdlijn?"
De menselijke expert kan zich dan richten op het moeilijke werk: "Is dit idee briljant? Is het belangrijk voor de maatschappij?"

Kortom: De AI is een handige rekenmachine die goed is in het vinden van kleine foutjes in de regels, maar hij is nog geen wijs beoordelaar die het grote plaatje ziet. We moeten hem gebruiken om ons werk makkelijker te maken, niet om ons werk over te nemen.

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

1. Het Experiment: De "Vervalste" Brieven

2. De Drie AI-Strategieën

3. Wat Vonden Ze? (De Verassingen)

4. De Conclusie: AI als Hulp, niet als Baas

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

1. Het Experiment: De "Vervalste" Brieven

2. De Drie AI-Strategieën

3. Wat Vonden Ze? (De Verassingen)

4. De Conclusie: AI als Hulp, niet als Baas

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance