CORE-Bench: Fostering the Credibility of… — Allgemeinverständliche Erklärung

Ursprüngliche Autoren: Zachary S. Siegel, Sayash Kapoor, Nitya Nadgir, Benedikt Stroebl, Arvind Narayanan

Veröffentlicht 2026-06-24

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Zachary S. Siegel, Sayash Kapoor, Nitya Nadgir, Benedikt Stroebl, Arvind Narayanan

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie sind ein Koch, der gerade ein berühmtes Rezept für ein perfektes Soufflé veröffentlicht hat. Sie sagen der Welt: „Hier ist das Rezept, hier sind die Zutaten und hier ist ein Foto des fluffigen Ergebnisses.“ Doch wenn Ihre Freunde versuchen, es nachzukochen, fällt das Soufflé zusammen, verbrennt oder schmeckt wie Pappe. Warum? Vielleicht haben sie den falschen Ofen benutzt, die falsche Marke Eier verwendet oder einen Schritt übersehen, weil Ihre Anweisungen vage waren.

In der Welt der Wissenschaft wird dies als Reproduzierbarkeitskrise bezeichnet. Wissenschaftler veröffentlichen Paper mit Code und Daten, aber andere Forscher können das Ergebnis oft nicht reproduzieren, wenn sie versuchen, diesen Code auszuführen.

Dieses Paper stellt eine neue „Testküche“ namens CORE-Bench vor, um zu sehen, ob KI-Roboter (sogenannte „Agents“) eingestellt werden können, um dieses Chaos zu beheben.

Das Problem: Die „Black Box“ der Wissenschaft

Wissenschaft basiert auf Vertrauen. Wenn eine Studie sagt, dass ein neues Medikament wirkt, müssen wir in der Lage sein, dieselbe Mathematik und denselben Code auszuführen, um dies zu verifizieren. Aber oft ist der Code unordentlich, die Software veraltet oder die Anweisungen fehlen. Es ist, als würde man versuchen, IKEA-Möbel ohne Anleitung zusammenzubauen, mit Werkzeugen, die man nicht hat, in einem Raum mit dem falschen Licht.

Die Lösung: Ein neuer „Roboter-Chef“-Test

Die Autoren haben CORE-Bench entwickelt, einen riesigen Hindernisparcours für KI-Agents.

Das Setup: Sie nahmen 90 echte wissenschaftliche Arbeiten aus den Bereichen Informatik, Medizin und Sozialwissenschaften.
Die Aufgabe: Sie baten KI-Agents, als Forschungsassistenten zu fungieren. Die Aufgabe des Agents ist es:
1. Den Code und die Daten herunterzuladen.
2. Alle notwendigen Softwarekomponenten zu installieren (wie das Herunterladen der richtigen Apps für ein neues Smartphone).
3. Den Code auszuführen.
4. Die Ergebnisse (Diagramme, Zahlen, Text) zu analysieren und spezifische Fragen dazu zu beantworten.
5. Einen Bericht einzureichen, der besagt: „Ich habe das gleiche Ergebnis wie in der ursprünglichen Arbeit erzielt.“

Die Schwierigkeitsgrade

Genau wie in einem Videospiel hat der Test drei Level:

Easy Mode (Einfach): Der KI wird das fertige „Foto“ des Ergebnisses gegeben. Sie muss nur das Bild betrachten und Fragen dazu beantworten. (Als würde man gebeten, eine Speisekarte zu lesen).
Medium Mode (Mittel): Der KI wird ein „Docker“-Container (eine vorgefertigte Box mit Werkzeugen) gegeben und sie soll diesen ausführen. Sie muss wissen, wie man die Box öffnet und den „Start“-Knopf drückt.
Hard Mode (Schwer): Die KI erhält nur das Rezept (die README-Datei). Sie muss herausfinden, welche Werkzeuge sie kaufen und installieren muss, Fehler beheben und den Code von Grund auf neu ausführen. Dies ist der Realitätscheck.

Die Ergebnisse: Die Roboter lernen noch

Die Forscher testeten zwei Arten von KI-„Köchen“:

AutoGPT: Ein Allzweck-Roboter, der versucht, alles Mögliche zu tun.
CORE-Agent: Ein Roboter, der speziell darauf trainiert und koacht wurde, genau diesen speziellen Job zu erledigen.

Die Bewertung:

Im Easy Mode: Der spezialisierte Roboter (CORE-Agent) schnitt recht gut ab und löste etwa 60 % der Aufgaben korrekt.
Im Hard Mode: Die Punktzahl sank signifikant. Selbst der beste Roboter schaffte nur etwa 21 % der schwierigsten Aufgaben korrekt.

Was ging schief?

Orientierungslosigkeit: Die Roboter schauten oft auf das falsche Diagramm oder die falsche Datei, wenn viele Dateien im Ordner vorhanden waren.
Die Installationsfalle: Auf dem schweren Level blieben die Roboter beim Installieren der Software stecken. Sie versuchten immer wieder, dasselbe zu installieren, verbrauchten zu viel Geld (API-Kosten) und gaben auf.
Visuelle Probleme: Es war für die Roboter viel schwieriger, Grafiken und Bilder zu „lesen“, als reinen Text zu lesen.
Sprachprobleme: Die Roboter hatten größere Schwierigkeiten mit Code in der Sprache R im Vergleich zu Python.

Das Fazit

Das Paper kommt zu dem Schluss, dass KI zwar besser im Programmieren wird, aber noch weit davon entfernt ist, komplexe wissenschaftliche Forschung eigenständig und zuverlässig zu reproduzieren.

Es gibt jedoch gute Nachrichten: Spezialisierte Trainings helfen. Als die Forscher dem allgemeinen Roboter einige spezifische Hinweise und Regeln gaben (wie „prüfe immer zuerst den Output-Ordner“ oder „rate nicht, sondern schaue in die Datei“), verbesserte sich seine Leistung deutlich.

Das Wesentliche:
Wir können einem Roboter heute nicht einfach ein wissenschaftliches Paper übergeben und erwarten, dass er die Wissenschaft verifiziert. Aber wenn wir dem Roboter ein wenig Coaching und die richtigen Werkzeuge geben, kann er anfangen zu helfen. Das Ziel ist nicht, Wissenschaftler zu ersetzen, sondern einen „Roboter-Assistenten“ zu bauen, der die langweilige, repetitive Arbeit übernehmen kann, zu prüfen, ob die Mathematik tatsächlich aufgeht, damit Menschen mehr Zeit für die eigentliche Entdeckung haben.

Die Autoren hoffen, dass sie durch die Veröffentlichung dieses Tests (CORE-Bench) andere Entwickler dazu bewegen, bessere Roboter zu bauen, die helfen können, die Wissenschaft vertrauenswürdiger zu machen.

CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark

Das Problem: Die „Black Box“ der Wissenschaft

Die Lösung: Ein neuer „Roboter-Chef“-Test

Die Schwierigkeitsgrade

Die Ergebnisse: Die Roboter lernen noch

Das Fazit

Technisches Resümee: CORE-Bench

Problemstellung

Methodik

Benchmark-Konstruktion (CORE-Bench)

Baseline-Agenten

Kernergebnisse

Bedeutung und Behauptungen

CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark

Das Problem: Die „Black Box“ der Wissenschaft

Die Lösung: Ein neuer „Roboter-Chef“-Test

Die Schwierigkeitsgrade

Die Ergebnisse: Die Roboter lernen noch

Das Fazit

Technisches Resümee: CORE-Bench

Problemstellung

Methodik

Benchmark-Konstruktion (CORE-Bench)

Baseline-Agenten

Kernergebnisse

Bedeutung und Behauptungen

Mehr davon