InnoGym: Benchmarking the Innovation Potential of AI Agents

Das Paper stellt InnoGym vor, den ersten Benchmark und ein Framework zur systematischen Bewertung des Innovationspotenzials von KI-Agenten durch die Messung von Leistungssteigerung und methodischer Neuheit in 18 realen Aufgaben, wobei Experimente eine Lücke zwischen Kreativität und Robustheit aufzeigen.

Jintian Zhang, Kewei Xu, Jingsheng Zheng, Zhuoyun Yu, Yuqi Zhu, Yujie Luo, Lanning Wei, Shuofei Qiao, Lun Du, Da Zheng, Shumin Deng, Huajun Chen, Ningyu Zhang

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Chefkoch in einer riesigen Küche, in der viele junge Köche (die KI-Agenten) versuchen, das perfekte Gericht zu kochen. Bisher haben wir diese Köche nur danach bewertet, ob ihr Gericht am Ende schmeckt (also ob die Antwort richtig ist). Wenn der Kuchen aufgeht und süß schmeckt, gab es einen Punkt.

Aber die Autoren dieses Papers, InnoGym, sagen: „Moment mal! Das reicht nicht!"

Stell dir vor, zwei Köche backen denselben perfekten Kuchen.

  • Koch A hat den Kuchen nach einem alten, langweiligen Rezept aus dem Jahr 1950 gebacken.
  • Koch B hat einen völlig neuen Weg gefunden: Er nutzt statt Mehl vielleicht eine spezielle Art von Algen oder hat den Ofen so modifiziert, dass er 50 % weniger Strom verbraucht.

Beide Kuchen schmecken gleich gut (die Antwort ist richtig), aber Koch B hat innovativ gedacht. Bisher haben wir das aber nicht gemessen.

Hier ist die einfache Erklärung von InnoGym, dem neuen Werkzeug, um diese Kreativität zu messen:

1. Das Problem: Nur das Ergebnis zählt (bisher)

Die meisten Tests für KI fragen nur: „Ist die Antwort richtig?" Das ist wie bei einer Prüfung, bei der nur das Endergebnis zählt, egal ob der Schüler die Aufgabe mit einem Taschenrechner, im Kopf oder durch Glück gelöst hat.

  • Das Problem: KI-Agenten sind oft gut darin, bekannte Wege zu kopieren, aber schlecht darin, wirklich neue, kreative Lösungen zu finden, die auch noch funktionieren.

2. Die Lösung: InnoGym (Der neue Prüfungsraum)

Die Forscher haben InnoGym gebaut. Das ist wie ein neuer, fairer Wettkampf, bei dem zwei Dinge gleichzeitig gemessen werden:

  • Leistungsgewinn (Performance Gain): Hat der Koch das Gericht besser gemacht als alle vorherigen? (Ist der Kuchen noch saftiger?)
  • Neuartigkeit (Novelty): Hat der Koch einen neuen Weg gefunden? (Hat er das Rezept komplett umgeschrieben?)

Die Metapher: Stell dir vor, du musst einen Berg besteigen.

  • Bisher: Wir haben nur geschaut, wer oben ankommt.
  • InnoGym: Wir schauen, wer oben ankommt UND ob er einen neuen, bisher unbekannten Pfad gefunden hat, statt den alten Wanderweg zu benutzen.

3. Der Spielplatz: 18 echte Herausforderungen

Um das zu testen, haben die Autoren 18 echte, schwierige Aufgaben zusammengestellt. Das sind keine einfachen Matheaufgaben, sondern echte Probleme aus der echten Welt, wie:

  • Wie packt man Kugeln am dichtesten in eine Kiste? (Ein klassisches mathematisches Problem).
  • Wie optimiert man den Fahrplan von Bussen in einer ganzen Stadt?
  • Wie findet man neue Medikamente?

Diese Aufgaben sind so gewählt, dass es noch Spielraum für Verbesserungen gibt. Es gibt kein „perfektes" Ergebnis, das man nur abhaken kann. Man muss wirklich etwas Besseres oder Neues erfinden.

4. Was haben sie herausgefunden? (Die überraschende Erkenntnis)

Sie haben verschiedene KI-Agenten in diesem Gym getestet. Das Ergebnis war aufschlussreich:

  • Kreativität ohne Robustheit: Viele Agenten waren sehr kreativ! Sie haben völlig neue Wege gefunden (hohe Neuartigkeit). Aber... ihre Lösungen waren oft kaputt oder funktionierten nicht richtig.
  • Die Lücke: Es gibt eine große Lücke zwischen „eine coole Idee haben" und „eine Idee, die wirklich funktioniert".
  • Das Fazit: Ein Agent, der einen neuen Weg findet, aber dabei den Kuchen verbrennt, bringt uns nicht weiter. Echte Innovation braucht beides: Die kreative Idee UND die Zuverlässigkeit, dass sie funktioniert.

5. Die Werkzeuge: iGym

Damit alle fair verglichen werden können, haben sie eine Art „Einheitsküche" namens iGym gebaut. Das ist eine Software-Umgebung, die sicherstellt, dass jeder Koch unter exakt gleichen Bedingungen arbeitet. Niemand kann schummeln oder hat einen Vorteil durch bessere Werkzeuge.

Zusammenfassung in einem Satz

InnoGym ist wie ein neuer Sportwettkampf für KI, der nicht nur fragt, „Wer hat gewonnen?", sondern auch: „Wer hat einen völlig neuen, genialen Weg gefunden, um zu gewinnen, ohne dabei zu scheitern?"

Es zeigt uns, dass die Zukunft der KI nicht nur darin liegt, immer bessere Antworten zu geben, sondern darin, kreativer zu denken – aber dabei nicht den Boden unter den Füßen zu verlieren.