Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, die wissenschaftliche Welt ist wie ein riesiger, überfüllter Bewerbungsmarkt für Forschungsprojekte. Jedes Jahr schicken Tausende von Wissenschaftlern ihre Pläne ein, um Geld für ihre Ideen zu bekommen. Das Problem? Die Anzahl der Bewerbungen explodiert, aber die Anzahl der Menschen, die diese Pläne lesen und bewerten können, bleibt gleich. Es ist, als würde ein einziger Kellner versuchen, 100 Gäste in einer Minute zu bedienen – er wird überfordert, müde und macht Fehler.

Diese Situation nennt die Autoren einen „malthusianischen Trichter": Mehr Bewerber, aber nicht mehr Zeit oder Personal.

Um dieses Problem zu lösen, haben die Forscher eine Frage gestellt: Können wir Künstliche Intelligenz (KI) als Assistenten einsetzen, um diese Pläne zu prüfen?

Hier ist eine einfache Erklärung ihrer Studie, verpackt in Bilder und Analogien:

1. Das Experiment: Der „Fehler-Test"

Da echte Forschungsanträge streng vertraulich sind (wie geheime Rezepte), konnten die Forscher keine echten Daten einfach so durch die KI laufen lassen. Stattdessen haben sie einen cleveren Trick angewendet: Die „Fehler-Simulation".

Stellen Sie sich vor, die Forscher nehmen sechs echte, gut geschriebene Anträge und fügen absichtlich kleine (und große) Fehler ein.

Beispiel: Sie ändern das Budget so, dass es nicht mehr zur Zeitplanung passt. Oder sie entfernen die Erklärung eines Fachbegriffs, sodass der Text unklar wird. Oder sie tauschen einen wichtigen Experten im Team gegen einen, der keine Ahnung von dem Thema hat.

Das ist wie ein Lehrer, der einem perfekten Aufsatz absichtlich einen Tippfehler oder eine falsche Rechnung einfügt, um zu testen, ob der Korrektur-Assistent (die KI) diesen Fehler wirklich findet.

Sie haben diese Tests in sechs Kategorien unterteilt, wie z. B. „Geld", „Zeitplan", „Team-Fähigkeiten" und „Klarheit". Insgesamt haben sie 42 verschiedene Arten von Fehlern eingebaut.

2. Die drei KI-Prüfer

Die Forscher haben drei verschiedene Methoden getestet, wie die KI die Anträge lesen könnte:

Der „Schnell-Leser" (Single-Pass): Die KI liest den gesamten riesigen Antrag auf einmal in einem Durchgang.
- Analogie: Wie jemand, der ein ganzes Buch in einer Minute überfliegt, um eine Zusammenfassung zu geben.
Der „Kapitel-Experte" (Section-Level): Die KI liest den Antrag nicht auf einmal, sondern zerlegt ihn in Abschnitte (z. B. erst nur das Budget, dann nur das Team) und prüft jeden Teil einzeln.
- Analogie: Wie ein Hausinspektor, der erst das Dach, dann die Elektrik und dann das Fundament einzeln prüft, statt alles auf einmal zu betrachten.
Der „Rat der Persönlichkeiten" (Council of Personas): Hier simuliert die KI ein ganzes Gremium aus fünf verschiedenen Experten (ein Finanzexperte, ein Ethiker, ein Technik-Enthusiast, ein Skeptiker und ein Impact-Champion). Diese diskutieren untereinander und fassen ihre Meinung zusammen.
- Analogie: Wie eine Jury in einer Gerichtsshow, bei der jeder Richter eine andere Perspektive hat und am Ende eine gemeinsame Entscheidung trifft.

3. Die Ergebnisse: Wer war der Beste?

Die Ergebnisse waren überraschend und lehrreich:

Der „Kapitel-Experte" war der Gewinner: Die Methode, bei der die KI den Antrag in Abschnitte zerlegt, war bei weitem die beste. Sie fand die meisten Fehler und vergab die konsistentesten Noten.
- Warum? Wenn man einen riesigen Text auf einmal liest, vergisst die KI oft Details (wie ein Mensch, der bei einem 500-seitigen Buch den Anfang vergisst). Durch das Aufteilen bleibt die KI fokussiert.
Der „Rat der Persönlichkeiten" war eine Enttäuschung: Obwohl es sehr teuer und rechenintensiv war (wie eine Jury mit vielen teuren Anwälten), war das Ergebnis kaum besser als der einfache Schnell-Leser.
- Lektion: Mehr Diskussionen machen die KI nicht unbedingt schlauer oder genauer.
Was fand die KI? Und was nicht?
- Gut: Die KI fand sehr gut Fehler, die mit der Strategie zu tun hatten (z. B. „Das passt gar nicht zu dem, was wir fördern wollen").
- Schlecht: Die KI fand fast keine Fehler in der Klarheit. Wenn Fachbegriffe nicht erklärt wurden oder Sätze unklar waren, ignorierte die KI das.
- Analogie: Die KI ist wie ein sehr strenger Kontrolleur, der prüft, ob alle Formulare ausgefüllt sind (Strategie), aber sie ist blind dafür, ob der Text gut lesbar ist oder ob der Autor sich unklar ausdrückt. Sie füllt Lücken im Text automatisch auf, anstatt zu sagen: „Hey, hier fehlt eine Erklärung!"

4. Der Vergleich mit echten Menschen

Die Forscher haben die KI-Ergebnisse mit denen von echten menschlichen Experten verglichen.

Übereinstimmung: Die KI war oft „korrekt" in dem Sinne, dass sie keine völlig falschen Dinge behauptete.
Der Unterschied: Die KI neigte dazu, sich auf kleine Regeln und Compliance zu konzentrieren (z. B. „Haben Sie die Datenschutz-Klausel erwähnt?"). Die menschlichen Experten hingegen bewerteten das große Ganze: „Ist diese Idee wirklich bahnbrechend? Ist das Team wirklich in der Lage, das zu schaffen?"

Die KI war also gut im „Kontrollieren", aber noch nicht gut im „Bewerten" und „Verstehen" der tiefen wissenschaftlichen Qualität.

Fazit: Was bedeutet das für die Zukunft?

Die Studie sagt uns nicht, dass wir die menschlichen Prüfer durch KI ersetzen können. Das wäre wie ein Roboter, der versucht, ein Kunstwerk zu bewerten – er kann die Farben zählen, aber nicht die Emotionen fühlen.

Aber: KI kann ein super Assistent sein.

Sie kann wie ein zweiter Paar Augen fungieren, um sicherzustellen, dass keine offensichtlichen Fehler (wie Budgetlücken oder fehlende Formulare) übersehen werden.
Sie kann die menschlichen Prüfer entlasten, damit diese sich auf das konzentrieren können, was am wichtigsten ist: Die Bewertung der wissenschaftlichen Vision und der gesellschaftlichen Wirkung.

Kurz gesagt: Die KI ist noch nicht der Chefprüfer, aber sie könnte der beste Gehilfe werden, der uns hilft, den riesigen Berg an Bewerbungen zu bewältigen, ohne dabei die Qualität zu verlieren.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Evaluating LLM-Based Grant Proposal Review via Structured Perturbations" auf Deutsch:

1. Problemstellung

Der Forschungssektor befindet sich in einer „malthusianischen Falle": Die Anzahl der Anträge für Forschungsförderung (z. B. durch UKRI/EPSRC im Vereinigten Königreich) wächst exponentiell, während die Kapazitäten für manuelle Begutachtung stagnieren. Dies führt zu langen Entscheidungszeiträumen und Überlastung der Gutachter.

Gleichzeitig besteht ein regulatorisches Ungleichgewicht: Antragsteller dürfen Generative KI (GenAI) zur Unterstützung beim Schreiben nutzen, Gutachter dürfen dies jedoch nicht. Dies schafft ein Risiko für die Qualität der Begutachtung. Während LLMs bereits für die Begutachtung von Konferenzpapieren untersucht wurden, ist ihre Eignung für Förderanträge (Grant Proposals) kaum erforscht. Förderanträge unterscheiden sich grundlegend von Papieren:

Sie sind prospektiv (Bewertung zukünftiger Machbarkeit statt vergangener Arbeit).
Sie erfordern eine Bewertung von „Value for Money", Teamkompetenz und nationaler Wirkung.
Die Daten sind extrem sensibel (geistiges Eigentum, Karriereaussichten), was die Verfügbarkeit von Trainingsdaten für LLMs stark einschränkt.

2. Methodik

Da keine großen, öffentlichen Datensätze von Förderanträgen existieren, entwickelten die Autoren ein perturbationsbasiertes Evaluierungsframework, um die Sensitivität von LLMs zu testen, ohne auf große Mengen an gelabelten Daten angewiesen zu sein.

Datensatz:

Sechs echte, nicht veröffentlichte Förderanträge des EPSRC (Engineering and Physical Sciences Research Council).
Zwei davon wurden bereits von menschlichen Experten bewertet (als Ground Truth).

Perturbations-Strategie:
Die Autoren generierten kontrollierte Fehlerzustände („Fault Conditions") in den Anträgen. Diese basieren auf sechs Qualitätsachsen, die aus den offiziellen Bewertungskriterien abgeleitet wurden:

Funding: Budgetanpassungen, fehlende Kostengrundlagen.
Timeline: Unrealistische Zeitpläne, fehlende Meilensteine.
Competency: Entfernung von Schlüsselpersonal, Schwächung des Kompetenznachweises.
Alignment: Fehlausrichtung zu den Förderzielen.
Clarity: Entfernung von Akronymbeschreibungen, Vagheit in Methoden.
Impact: Irrelevante Stakeholder, fehlende Langzeitwirkungen.

Insgesamt wurden 42 spezifische Perturbationen pro Antrag erzeugt.

Architekturen (Review-Systeme):
Drei verschiedene LLM-Architekturen wurden verglichen:

Zero-Shot Baseline: Ein einzelnes Modell (GPT-OSS-20B) erhält den gesamten Antrag in einem Kontext.
Section-Level Review: Der Antrag wird in logische Gruppen (Vision, Team, Ressourcen, Ethik) zerlegt. Das Modell bewertet jede Gruppe separat, um das „Lost-in-the-Middle"-Problem bei langen Kontexten zu vermeiden.
Council of Personas: Ein Ensemble-Ansatz, der ein Expertengremium simuliert. Fünf verschiedene Personas (z. B. Kostenanalyst, Methodischer Skeptiker, Impact-Champion) bewerten den Antrag unabhängig. Ein „Vorsitzender" synthetisiert die Ergebnisse basierend auf einem Meta-Review und einer Rangfolge.

Evaluation:

Perturbation Detection: Ein Panel aus drei Judge-Modellen (Qwen3.5, Nemotron, GLM-4) prüft, ob die LLM-Bewertung die eingeführten Fehler korrekt identifiziert und negativ bewertet.
Feedback-Alignment: Vergleich der von LLMs generierten Claims (Aussagen) mit menschlichen Expertenbewertungen mittels semantischer Clustering und Relevanz-Matching (E2Rank).

3. Wichtige Beiträge

Perturbations-Framework: Ein neues, prinzipiengeleitetes Evaluierungsverfahren für datenarme, hochsensible Domänen, das 6 Anträge in 42 kontrollierte Fehlerzustände überführt.
Council of Personas Architektur: Entwicklung eines Multi-Persona-Ensembles, das die Mehrperspektivität menschlicher Gremien nachahmt.
Empirische Analyse: Der erste systematische Vergleich von LLM-Architekturen im Kontext von Förderanträgen, einschließlich einer Gegenüberstellung mit menschlichen Expertenurteilen.

4. Ergebnisse

Erkennungsleistung (Perturbation Detection):

Gesamterkennungsrate: Nur 21,2 % der Perturbationen wurden erkannt. Fast 80 % der eingeführten Fehler blieben unentdeckt.
Architekturvergleich:
- Der Section-Level-Ansatz schnitt signifikant besser ab (Durchschnittliche Erkennungsrate $\mu = 0,29$ ) als die Baseline ( $\mu = 0,17$ ) und das Council-Verfahren ( $\mu = 0,17$ ).
- Das Council-Verfahren war trotz hoher Token-Kosten nicht besser als die einfache Baseline.
Sensitivität nach Kategorie:
- Alignment: Am besten erkannt ( $\mu = 0,41$ ), da Modelle wahrscheinlich Muster aus den Förderaufrufen (die im Training enthalten waren) gelernt haben.
- Clarity: Fast vollständig unentdeckt ( $\mu = 0,06$ ). Modelle neigen dazu, vage Begriffe oder fehlende Akronyme durch Kontextinferenz zu „korrigieren", statt sie als Mangel zu melden.
Zuverlässigkeit (Reliability):
- Der Section-Level-Ansatz erreichte die höchste Intra-Class Correlation (ICC = 0,50), was auf konsistentere Bewertungen hindeutet.
- Baseline und Council zeigten eine hohe Varianz (ICC < 0,15), d. h., wiederholte Bewertungen desselben Antrags lieferten inkonsistente Scores.

Alignment mit menschlichen Experten:

Validität: LLM-Feedback ist größtenteils valide und widerspricht menschlichen Urteilen selten (nur ~2 % Widersprüche).
Bias: LLMs neigen dazu, sich auf compliance-bezogene Details (z. B. Datenschutz, spezifische Governance) zu konzentrieren, die menschliche Gutachter oft als selbstverständlich ansehen oder als weniger gewichtig einstufen.
Tonfall: LLMs generieren häufiger negative Claims als menschliche Gutachter, die oft einen breiteren Mix aus Bestätigung und Kritik liefern.
Fehlende Holistik: LLMs verpassen oft die übergeordnete Bewertung der „Förderwürdigkeit" (Value for Money) zugunsten von Detailprüfungen.

5. Bedeutung und Fazit

Das Paper zeigt, dass aktuelle LLMs nicht bereit für eine autonome Begutachtung von Förderanträgen sind. Sie weisen eine hohe Variabilität auf und haben falsche Prioritäten (z. B. Übersehen von Klarheitsmängeln, Fokus auf Compliance statt strategischer Ausrichtung).

Schlussfolgerungen:

Kein Ersatz, sondern Ergänzung: LLMs können als unterstützende Werkzeuge dienen, insbesondere für strukturierte Prüfungen (z. B. Budgetkonsistenz, Alignment mit Förderzielen), müssen aber unter menschlicher Aufsicht bleiben.
Architektur-Entscheidung: Die Zerlegung langer Dokumente in fokussierte Abschnitte (Section-Level) ist effektiver als entweder der Versuch, den gesamten Kontext auf einmal zu verarbeiten, oder komplexe Ensemble-Methoden wie das Council of Personas.
Zukünftige Herausforderung: Die größte Lücke liegt in der Fähigkeit der Modelle, „Klarheit" und „Machbarkeit" kritisch zu hinterfragen, anstatt Lücken im Text durch Inferenz zu füllen.

Die Studie unterstreicht die Notwendigkeit von domänenspezifischen Evaluierungsmethoden, die über reine Textgenerierung hinausgehen, und liefert einen ersten Baustein für den sicheren Einsatz von KI in hochriskanten wissenschaftlichen Entscheidungsprozessen.

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

1. Das Experiment: Der „Fehler-Test"

2. Die drei KI-Prüfer

3. Die Ergebnisse: Wer war der Beste?

4. Der Vergleich mit echten Menschen

Fazit: Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance