Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Diese Studie untersucht die Eignung von LLMs für die Begutachtung von EPSRC-Förderanträgen durch strukturierte Perturbationen und stellt fest, dass zwar ein abschnittsbasierter Ansatz die beste Leistung zeigt, die Modelle jedoch eine hohe Variabilität aufweisen und sich zu stark auf Compliance-Checks statt auf eine ganzheitliche Bewertung konzentrieren.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard

Veröffentlicht Tue, 10 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, die wissenschaftliche Welt ist wie ein riesiger, überfüllter Bewerbungsmarkt für Forschungsprojekte. Jedes Jahr schicken Tausende von Wissenschaftlern ihre Pläne ein, um Geld für ihre Ideen zu bekommen. Das Problem? Die Anzahl der Bewerbungen explodiert, aber die Anzahl der Menschen, die diese Pläne lesen und bewerten können, bleibt gleich. Es ist, als würde ein einziger Kellner versuchen, 100 Gäste in einer Minute zu bedienen – er wird überfordert, müde und macht Fehler.

Diese Situation nennt die Autoren einen „malthusianischen Trichter": Mehr Bewerber, aber nicht mehr Zeit oder Personal.

Um dieses Problem zu lösen, haben die Forscher eine Frage gestellt: Können wir Künstliche Intelligenz (KI) als Assistenten einsetzen, um diese Pläne zu prüfen?

Hier ist eine einfache Erklärung ihrer Studie, verpackt in Bilder und Analogien:

1. Das Experiment: Der „Fehler-Test"

Da echte Forschungsanträge streng vertraulich sind (wie geheime Rezepte), konnten die Forscher keine echten Daten einfach so durch die KI laufen lassen. Stattdessen haben sie einen cleveren Trick angewendet: Die „Fehler-Simulation".

Stellen Sie sich vor, die Forscher nehmen sechs echte, gut geschriebene Anträge und fügen absichtlich kleine (und große) Fehler ein.

  • Beispiel: Sie ändern das Budget so, dass es nicht mehr zur Zeitplanung passt. Oder sie entfernen die Erklärung eines Fachbegriffs, sodass der Text unklar wird. Oder sie tauschen einen wichtigen Experten im Team gegen einen, der keine Ahnung von dem Thema hat.

Das ist wie ein Lehrer, der einem perfekten Aufsatz absichtlich einen Tippfehler oder eine falsche Rechnung einfügt, um zu testen, ob der Korrektur-Assistent (die KI) diesen Fehler wirklich findet.

Sie haben diese Tests in sechs Kategorien unterteilt, wie z. B. „Geld", „Zeitplan", „Team-Fähigkeiten" und „Klarheit". Insgesamt haben sie 42 verschiedene Arten von Fehlern eingebaut.

2. Die drei KI-Prüfer

Die Forscher haben drei verschiedene Methoden getestet, wie die KI die Anträge lesen könnte:

  • Der „Schnell-Leser" (Single-Pass): Die KI liest den gesamten riesigen Antrag auf einmal in einem Durchgang.
    • Analogie: Wie jemand, der ein ganzes Buch in einer Minute überfliegt, um eine Zusammenfassung zu geben.
  • Der „Kapitel-Experte" (Section-Level): Die KI liest den Antrag nicht auf einmal, sondern zerlegt ihn in Abschnitte (z. B. erst nur das Budget, dann nur das Team) und prüft jeden Teil einzeln.
    • Analogie: Wie ein Hausinspektor, der erst das Dach, dann die Elektrik und dann das Fundament einzeln prüft, statt alles auf einmal zu betrachten.
  • Der „Rat der Persönlichkeiten" (Council of Personas): Hier simuliert die KI ein ganzes Gremium aus fünf verschiedenen Experten (ein Finanzexperte, ein Ethiker, ein Technik-Enthusiast, ein Skeptiker und ein Impact-Champion). Diese diskutieren untereinander und fassen ihre Meinung zusammen.
    • Analogie: Wie eine Jury in einer Gerichtsshow, bei der jeder Richter eine andere Perspektive hat und am Ende eine gemeinsame Entscheidung trifft.

3. Die Ergebnisse: Wer war der Beste?

Die Ergebnisse waren überraschend und lehrreich:

  • Der „Kapitel-Experte" war der Gewinner: Die Methode, bei der die KI den Antrag in Abschnitte zerlegt, war bei weitem die beste. Sie fand die meisten Fehler und vergab die konsistentesten Noten.
    • Warum? Wenn man einen riesigen Text auf einmal liest, vergisst die KI oft Details (wie ein Mensch, der bei einem 500-seitigen Buch den Anfang vergisst). Durch das Aufteilen bleibt die KI fokussiert.
  • Der „Rat der Persönlichkeiten" war eine Enttäuschung: Obwohl es sehr teuer und rechenintensiv war (wie eine Jury mit vielen teuren Anwälten), war das Ergebnis kaum besser als der einfache Schnell-Leser.
    • Lektion: Mehr Diskussionen machen die KI nicht unbedingt schlauer oder genauer.
  • Was fand die KI? Und was nicht?
    • Gut: Die KI fand sehr gut Fehler, die mit der Strategie zu tun hatten (z. B. „Das passt gar nicht zu dem, was wir fördern wollen").
    • Schlecht: Die KI fand fast keine Fehler in der Klarheit. Wenn Fachbegriffe nicht erklärt wurden oder Sätze unklar waren, ignorierte die KI das.
    • Analogie: Die KI ist wie ein sehr strenger Kontrolleur, der prüft, ob alle Formulare ausgefüllt sind (Strategie), aber sie ist blind dafür, ob der Text gut lesbar ist oder ob der Autor sich unklar ausdrückt. Sie füllt Lücken im Text automatisch auf, anstatt zu sagen: „Hey, hier fehlt eine Erklärung!"

4. Der Vergleich mit echten Menschen

Die Forscher haben die KI-Ergebnisse mit denen von echten menschlichen Experten verglichen.

  • Übereinstimmung: Die KI war oft „korrekt" in dem Sinne, dass sie keine völlig falschen Dinge behauptete.
  • Der Unterschied: Die KI neigte dazu, sich auf kleine Regeln und Compliance zu konzentrieren (z. B. „Haben Sie die Datenschutz-Klausel erwähnt?"). Die menschlichen Experten hingegen bewerteten das große Ganze: „Ist diese Idee wirklich bahnbrechend? Ist das Team wirklich in der Lage, das zu schaffen?"

Die KI war also gut im „Kontrollieren", aber noch nicht gut im „Bewerten" und „Verstehen" der tiefen wissenschaftlichen Qualität.

Fazit: Was bedeutet das für die Zukunft?

Die Studie sagt uns nicht, dass wir die menschlichen Prüfer durch KI ersetzen können. Das wäre wie ein Roboter, der versucht, ein Kunstwerk zu bewerten – er kann die Farben zählen, aber nicht die Emotionen fühlen.

Aber: KI kann ein super Assistent sein.

  • Sie kann wie ein zweiter Paar Augen fungieren, um sicherzustellen, dass keine offensichtlichen Fehler (wie Budgetlücken oder fehlende Formulare) übersehen werden.
  • Sie kann die menschlichen Prüfer entlasten, damit diese sich auf das konzentrieren können, was am wichtigsten ist: Die Bewertung der wissenschaftlichen Vision und der gesellschaftlichen Wirkung.

Kurz gesagt: Die KI ist noch nicht der Chefprüfer, aber sie könnte der beste Gehilfe werden, der uns hilft, den riesigen Berg an Bewerbungen zu bewältigen, ohne dabei die Qualität zu verlieren.