InnoGym: Benchmarking the Innovation Potential of AI Agents

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Chefkoch in einer riesigen Küche, in der viele junge Köche (die KI-Agenten) versuchen, das perfekte Gericht zu kochen. Bisher haben wir diese Köche nur danach bewertet, ob ihr Gericht am Ende schmeckt (also ob die Antwort richtig ist). Wenn der Kuchen aufgeht und süß schmeckt, gab es einen Punkt.

Aber die Autoren dieses Papers, InnoGym, sagen: „Moment mal! Das reicht nicht!"

Stell dir vor, zwei Köche backen denselben perfekten Kuchen.

Koch A hat den Kuchen nach einem alten, langweiligen Rezept aus dem Jahr 1950 gebacken.
Koch B hat einen völlig neuen Weg gefunden: Er nutzt statt Mehl vielleicht eine spezielle Art von Algen oder hat den Ofen so modifiziert, dass er 50 % weniger Strom verbraucht.

Beide Kuchen schmecken gleich gut (die Antwort ist richtig), aber Koch B hat innovativ gedacht. Bisher haben wir das aber nicht gemessen.

Hier ist die einfache Erklärung von InnoGym, dem neuen Werkzeug, um diese Kreativität zu messen:

1. Das Problem: Nur das Ergebnis zählt (bisher)

Die meisten Tests für KI fragen nur: „Ist die Antwort richtig?" Das ist wie bei einer Prüfung, bei der nur das Endergebnis zählt, egal ob der Schüler die Aufgabe mit einem Taschenrechner, im Kopf oder durch Glück gelöst hat.

Das Problem: KI-Agenten sind oft gut darin, bekannte Wege zu kopieren, aber schlecht darin, wirklich neue, kreative Lösungen zu finden, die auch noch funktionieren.

2. Die Lösung: InnoGym (Der neue Prüfungsraum)

Die Forscher haben InnoGym gebaut. Das ist wie ein neuer, fairer Wettkampf, bei dem zwei Dinge gleichzeitig gemessen werden:

Leistungsgewinn (Performance Gain): Hat der Koch das Gericht besser gemacht als alle vorherigen? (Ist der Kuchen noch saftiger?)
Neuartigkeit (Novelty): Hat der Koch einen neuen Weg gefunden? (Hat er das Rezept komplett umgeschrieben?)

Die Metapher: Stell dir vor, du musst einen Berg besteigen.

Bisher: Wir haben nur geschaut, wer oben ankommt.
InnoGym: Wir schauen, wer oben ankommt UND ob er einen neuen, bisher unbekannten Pfad gefunden hat, statt den alten Wanderweg zu benutzen.

3. Der Spielplatz: 18 echte Herausforderungen

Um das zu testen, haben die Autoren 18 echte, schwierige Aufgaben zusammengestellt. Das sind keine einfachen Matheaufgaben, sondern echte Probleme aus der echten Welt, wie:

Wie packt man Kugeln am dichtesten in eine Kiste? (Ein klassisches mathematisches Problem).
Wie optimiert man den Fahrplan von Bussen in einer ganzen Stadt?
Wie findet man neue Medikamente?

Diese Aufgaben sind so gewählt, dass es noch Spielraum für Verbesserungen gibt. Es gibt kein „perfektes" Ergebnis, das man nur abhaken kann. Man muss wirklich etwas Besseres oder Neues erfinden.

4. Was haben sie herausgefunden? (Die überraschende Erkenntnis)

Sie haben verschiedene KI-Agenten in diesem Gym getestet. Das Ergebnis war aufschlussreich:

Kreativität ohne Robustheit: Viele Agenten waren sehr kreativ! Sie haben völlig neue Wege gefunden (hohe Neuartigkeit). Aber... ihre Lösungen waren oft kaputt oder funktionierten nicht richtig.
Die Lücke: Es gibt eine große Lücke zwischen „eine coole Idee haben" und „eine Idee, die wirklich funktioniert".
Das Fazit: Ein Agent, der einen neuen Weg findet, aber dabei den Kuchen verbrennt, bringt uns nicht weiter. Echte Innovation braucht beides: Die kreative Idee UND die Zuverlässigkeit, dass sie funktioniert.

5. Die Werkzeuge: iGym

Damit alle fair verglichen werden können, haben sie eine Art „Einheitsküche" namens iGym gebaut. Das ist eine Software-Umgebung, die sicherstellt, dass jeder Koch unter exakt gleichen Bedingungen arbeitet. Niemand kann schummeln oder hat einen Vorteil durch bessere Werkzeuge.

Zusammenfassung in einem Satz

InnoGym ist wie ein neuer Sportwettkampf für KI, der nicht nur fragt, „Wer hat gewonnen?", sondern auch: „Wer hat einen völlig neuen, genialen Weg gefunden, um zu gewinnen, ohne dabei zu scheitern?"

Es zeigt uns, dass die Zukunft der KI nicht nur darin liegt, immer bessere Antworten zu geben, sondern darin, kreativer zu denken – aber dabei nicht den Boden unter den Füßen zu verlieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Bestehende Benchmarks für Large Language Models (LLMs) und AI-Agenten konzentrieren sich fast ausschließlich auf die Korrektheit der Lösung (z. B. Bestehen von Testfällen oder Übereinstimmung mit einer Referenzantwort). Dieser Ansatz ignoriert jedoch einen wesentlichen Aspekt von Intelligenz: die Methodenvielfalt. Zwei Agenten können dasselbe korrekte Ergebnis erzielen, aber durch völlig unterschiedliche Lösungswege.

Das Paper identifiziert folgende Lücken im aktuellen Forschungsstand:

Fehlende Bewertung von Innovation: Es gibt keine standardisierte Metrik, die sowohl die Leistungssteigerung als auch die methodische Neuheit einer Lösung quantifiziert.
Unterscheidung von Problemtypen: Viele Benchmarks behandeln „gelöste" Probleme (wo die optimale Lösung bekannt ist) und „explorative" Probleme (wo keine menschliche Basis existiert) gleich, obwohl die Anforderungen an Innovation dort grundverschieden sind.
Robustheitslücke: Aktuelle Agenten können oft kreative Ansätze generieren, scheitern jedoch an der robusten Implementierung, sodass diese Innovationen nicht in messbare Leistungssteigerungen übersetzt werden.

2. Methodik und Framework

Das Paper stellt InnoGym vor, ein umfassendes Framework, das aus zwei komplementären Komponenten besteht: iBench (der Benchmark selbst) und iGym (die Ausführungsumgebung).

A. Definition von Innovation

Innovation wird formal als Quadrupel $T = (P, S, V, D)$ definiert:

$P$ : Probleminstanz (Aufgabe, Constraints, Ziele).
$S$ : Lösungsraum (ausführbare Lösungen).
$V$ : Leistungsmaß (Performance).
$D$ : Distanzmaß (Unterschiedlichkeit zwischen Lösungen).

Auf dieser Basis werden zwei komplementäre Metriken eingeführt:

Performance Gain ( $G$ ): Misst die Verbesserung einer neuen Lösung $s$ gegenüber dem besten bekannten Zustand ( $V^*_{known}$ ).
$G(s) = V(s) - V^*_{known}$
Ein positiver Wert deutet auf einen Durchbruch hin, der den aktuellen State-of-the-Art (SOTA) übertrifft.
Novelty ( $N$ ): Quantifiziert die methodische Distanz zu bekannten Lösungen $S_{known}$ .
$N(s) = C(s) \cdot \min_{h \in S_{known}} D(s, h)$
Dabei ist $C(s)$ ein Feasibility-Check (1, wenn die Lösung gültig ist, sonst 0). Die Distanz $D$ wird durch einen „Agent-as-judge"-Prozess (unterstützt durch Codex/GPT-5) berechnet, der Lösungen in strukturierte Repräsentationen (Zusammenfassung + Pseudocode) überführt und entlang sechs Dimensionen (z. B. Methodik, Architektur, Datenverarbeitung) vergleicht.

Kategorisierung von Aufgaben:

Gelöste Probleme (Solved): Optimale Lösung bekannt. Innovation wird nur durch neue Methoden ( $N$ ) gemessen.
Verbesserbare Probleme (Improvable): Lösungen existieren, aber kein bekanntes Optimum. Hier kann Innovation durch höhere Leistung ( $G > 0$ ) oder neue Methoden bei gleicher Leistung ( $N$ hoch) erreicht werden. Dies ist der Fokus von InnoGym.
Explorative Probleme (Exploratory): Keine bekannten gültigen Lösungen. Der erste gültige Versuch ist ein monumentaler Durchbruch.

B. iBench: Der Benchmark

Datensatz: 18 sorgfältig kuratierte Aufgaben aus realen Ingenieur- und Wissenschaftsbereichen (z. B. ROADEF-Herausforderungen, KDD Cup, mathematische Optimierungsprobleme wie Circle Packing).
Filterprozess: Aus 197 gesammelten Aufgaben wurden 18 ausgewählt, die „verbesserbar" sind, über verlässliche Validatoren verfügen und reproduzierbare Umgebungen erlauben.
Standardisierung: Jede Aufgabe wird durch Ressourcenfilterung, Validatoren-Konstruktion, Lösungssammlung (Leaderboard-Einträge, Papers) und Normalisierung der Bewertungsmetriken (Absolutisierung von Rankings) aufbereitet.

C. iGym: Die Ausführungsumgebung

Ein einheitliches SDK, das robuste Tool-Nutzung, lange Laufzeiten (Long-Horizon) und Wiederholbarkeit unterstützt. Es bietet:

Asynchrone Tool-Dispatcher.
Mechanismen zur Fehlerwiederherstellung (Recovery) und Checkpointing.
Unterstützung für verschiedene Agenten-Architekturen (Workflow vs. Autonomous Agents).

3. Experimente und Ergebnisse

Die Autoren führten umfangreiche Experimente mit drei führenden Agenten-Frameworks (MLAB, CODEACT, AIDE) auf 10 ausgewählten Hauptaufgaben durch, wobei DeepSeek-v3.1 als Basis-LLM diente.

Wichtige Erkenntnisse:

Signifikante Leistungslücke: Kein aktueller Agent konnte die besten menschlichen Lösungen (SOTA) auf komplexen, offenen Aufgaben übertreffen. Bei Aufgaben mit komplexen Datenformaten (z. B. CDML, PTTALC) scheiterten alle Agenten daran, überhaupt ausführbare Lösungen zu generieren.
Robustheit vor Neuheit: Es wurde eine Diskrepanz zwischen Kreativität und Effektivität festgestellt.
- Agenten zeigten teilweise hohe Neuheitswerte ( $N$ ), aber die Lösungen waren oft fehlerhaft oder nicht robust.
- Hohe Innovation ohne korrekte Implementierung führt zu keinem positiven Performance Gain ( $G$ ).
- Fazit: Die größte Hürde für Agenten ist nicht der Mangel an neuen Ideen, sondern die Fähigkeit, diese in korrekte, robuste Implementierungen zu übersetzen.
Framework-Vergleich:
- MLAB zeigte die beste Balance aus Performance Gain und Neuheit.
- CODEACT und AIDE hinken in der Robustheit hinterher, wobei CODEACT bei gut spezifizierten mathematischen Optimierungsproblemen (Circle Packing) nahe an den SOTA herankam, dies aber nicht auf breitere Aufgaben verallgemeinerte.
Einfluss des Basis-Modells: Die Leistung hängt stark von der Stärke des zugrunde liegenden LLM ab (z. B. Gemini-2.5-Pro und GPT-5 simuliert erzielten bessere Ergebnisse als DeepSeek-v3.1). Agenten-Frameworks wirken als Verstärker der Basisfähigkeiten, ersetzen diese aber nicht.
Trade-off Exploration vs. Exploitation: Bei höheren Sampling-Temperaturen steigt die Neuheit, aber die Performance sinkt. Ein „Sweet Spot" (Temperatur 0.5–0.75) ermöglicht eine gute Balance.

4. Hauptbeiträge

Prinzipielles Framework: Einführung einer formalen Definition von Innovation für AI-Agenten, die Performance Gain und methodische Neuheit kombiniert.
InnoGym Benchmark: Der erste Benchmark, der speziell auf das Innovationspotenzial abzielt, bestehend aus 18 standardisierten „Improvable Tasks" aus realen Domänen.
iGym Environment: Eine einheitliche, reproduzierbare Ausführungsumgebung für langfristige und robuste Evaluierungen über verschiedene Systeme hinweg.
Empirische Erkenntnisse: Systematische Aufdeckung der Lücke zwischen Kreativität und Zuverlässigkeit bei aktuellen Agenten, was die Notwendigkeit unterstreicht, Benchmarks zu entwickeln, die beide Aspekte bewerten.

5. Bedeutung und Ausblick

InnoGym verschiebt den Fokus der Evaluierung von reinen „Korrektur-Benchmarks" hin zu einer ganzheitlichen Bewertung der kreativen und innovativen Fähigkeiten von KI. Die Ergebnisse zeigen, dass für den Einsatz in realen wissenschaftlichen und ingenieurtechnischen Szenarien Robustheit die Voraussetzung für echte Innovation ist. Ein bloßes „Erfinden neuer Wege" nützt nichts, wenn der Weg nicht zum Ziel führt.

Das Framework bietet eine reproduzierbare Plattform für zukünftige Forschung, um zu untersuchen, wie Agenten lernen können, Kreativität und Zuverlässigkeit zu vereinen, und wie sich die Definition von Innovation im Laufe der Zeit verändert, wenn neue Lösungen zum Standard werden. Der Code und die Daten sind unter https://github.com/zjunlp/igym open-source verfügbar.