Evaluating Code Reasoning Abilities of Large Language Models Under Real-World Settings

Diese Arbeit stellt einen neuen Datensatz mit 1200 Programmieraufgaben vor, der durch die Einbeziehung komplexer, realitätsnaher Code-Strukturen eine präzisere Bewertung der logischen Denkfähigkeit von Large Language Models ermöglicht als bisherige, vereinfachte Benchmarks.

Ursprüngliche Autoren: Changshu Liu, Alireza Ghazanfari, Yang Chen, Reyhaneh Jabbarvand

Veröffentlicht 2026-04-27
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Die „Schulaufgaben-Falle“ der KI

Stellen Sie sich vor, Sie wollen herausfinden, ob jemand ein echter Mathematik-Genie ist. Also geben Sie dieser Person eine Reihe von Aufgaben: 2 + 2, 5 x 5 oder 100 - 20. Die Person löst alles blitzschnell und perfekt. Sie sagen: „Wow, dieser Mensch ist ein Mathe-Profi!“

Aber hier ist der Haken: Sie haben der Person nur einfache Rechenaufgaben aus einem Grundschulheft gegeben. Sie haben ihr niemals eine komplexe Textaufgabe gestellt, bei der man erst eine Tabelle erstellen, dann die Steuern berechnen und am Ende den Zinseszins einplanen muss.

Genau das ist das Problem, das die Forscher in diesem Papier beschreiben. Bisherige Tests für Künstliche Intelligenzen (KI) waren wie diese Grundschulhefte. Die KIs (wie ChatGPT oder Claude) wirken bei Code-Aufgaben (Programmierung) extrem schlau, weil die Aufgaben sehr simpel sind: „Was kommt bei dieser kleinen Funktion raus?“

Die Lösung: Der „RE2-Bench“ – Der echte Härtetest

Die Forscher haben gesagt: „Das reicht nicht! Wir müssen die KI in die echte Welt schicken.“ Sie haben einen neuen Test entwickelt, den sie RE2-Bench nennen.

Anstatt nur kleine, künstliche Code-Schnipsel zu nehmen, haben sie echte, riesige Software-Projekte von Plattformen wie GitHub genommen. Das ist so, als würde man den Mathematiker nicht mehr nach 2 + 2 fragen, sondern ihm die Steuererklärung eines mittelständischen Unternehmens vorlegen.

Was macht diesen Test so schwer?
In der echten Welt ist Code nicht einfach nur eine Linie. Er ist wie ein riesiges, verwobenes Spinnennetz:

  1. Versteckte Abhängigkeiten: Eine Funktion ruft eine andere auf, die wiederum eine dritte aufruft (wie eine russische Matroschka-Puppe).
  2. Komplizierte Objekte: Es geht nicht nur um einfache Zahlen, sondern um komplexe „Gegenstände“ (Objekte), die viele verschiedene Eigenschaften gleichzeitig haben.
  3. Dritte Werkzeuge: Der Code nutzt oft externe Bibliotheken (APIs), die wie fremde Werkzeuge in der Werkstatt sind, die man erst einmal verstehen muss.

Das Ergebnis: Der „Realitäts-Schock“

Als die Forscher die besten KIs der Welt mit diesem neuen Test konfrontierten, passierte etwas Erstaunliches: Die Leistung der KIs brach massiv ein.

Wenn die Aufgaben von „einfach“ zu „echt komplex“ wechselten, sank die Genauigkeit der KIs bei der Vorhersage von Ergebnissen um bis zu 48 %!

Das bedeutet: Die KIs sind zwar hervorragende „Schüler“, die ihre Hausaufgaben aus dem Lehrbuch perfekt beherrschen, aber sie sind noch keine „Ingenieure“, die in einem komplexen, chaotischen System den Überblick behalten können.

Warum ist das wichtig?

Wenn wir uns blind auf die KI verlassen, während sie Software schreibt, die wir später im echten Leben nutzen (z. B. in Autos oder medizinischen Geräten), könnte das gefährlich sein. Die KI könnte bei einer einfachen Aufgabe glänzen, aber bei einer komplexen Verknüpfung einen entscheidenden Fehler machen, weil sie den „roten Faden“ im Spinnennetz verliert.

Zusammenfassend: Die Forscher haben die Maske der KI ein Stück weit gelüftet. Sie haben gezeigt, dass wir noch viel mehr arbeiten müssen, damit KIs nicht nur „rechnen“ können, sondern die wahre Komplexität der realen Welt wirklich verstehen.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →