BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest testen, ob ein Schüler wirklich Mathe kann oder ob er nur die Lösungen aus dem Lehrbuch auswendig gelernt hat.

Bisher haben wir bei großen KI-Modellen (den "Gehirnen" des Internets) genau dieses Problem: Wir haben sie mit festen Aufgaben geprüft, die sie sich vielleicht schon beim "Lernen" (dem Training) im Internet angesehen haben. Es ist, als würde man einem Schüler einen Test geben, bei dem die Fragen exakt aus dem Buch stammen, das er vorher gelesen hat. Wenn er die Antworten aufsagt, wissen wir nicht, ob er wirklich denkt oder ob er sich nur erinnert.

Die Forscher aus diesem Papier haben sich etwas Neues ausgedacht, das sie BEYONDBENCH nennen. Hier ist eine einfache Erklärung, wie das funktioniert und was sie herausgefunden haben:

1. Der unendliche Aufgaben-Generator

Stell dir vor, statt einem festen Heft mit 100 Aufgaben, hat BEYONDBENCH einen magischen Generator.

Das alte Problem: Die alten Tests waren wie ein festes Puzzle. Wenn das KI-Modell das Puzzle schon einmal gesehen hat, ist es geschummelt.
Die neue Lösung: BEYONDBENCH baut die Aufgaben in dem Moment, in dem die KI sie lösen soll. Es nutzt mathematische Formeln, um Aufgaben zu erschaffen, die es so noch nie gab und die es auch nie geben wird.
Die Analogie: Stell dir vor, du würdest einen Würfel werfen, um eine Matheaufgabe zu erstellen. Aber dieser Würfel hat nicht 6 Seiten, sondern mehr als eine Quintillion (10^15) Seiten. Die Wahrscheinlichkeit, dass die KI zufällig genau diese eine Aufgabe schon einmal gesehen hat, ist so gering wie die Chance, dass ein einzelnes Sandkorn im gesamten Ozean genau das ist, das du gerade suchst.

2. Der "Schwierigkeits-Gradmesser"

Die Forscher haben die Aufgaben in drei Kategorien eingeteilt, wie ein Videospiel mit Levels:

Leicht (Easy): Einfaches Kopfrechnen und Zählen. Das ist wie das Einmaleins.
Mittel (Medium): Hier geht es um Mustererkennung, wie bei einer fortgeschrittenen Rätselkette.
Schwer (Hard): Das sind die "Boss-Level". Hier müssen die KIs komplexe Logikrätsel lösen, bei denen es Millionen von Möglichkeiten gibt, aber nur eine richtige. Das ist wie das Lösen eines riesigen Sudoku oder das Platzieren von Schachfiguren auf einem riesigen Brett, ohne dass sie sich gegenseitig angreifen.

3. Was haben sie herausgefunden? (Die überraschenden Ergebnisse)

Als sie 101 verschiedene KI-Modelle (von kleinen bis zu riesigen) getestet haben, kamen einige schockierende Dinge ans Licht:

Die "Gedächtnis-Falle": Viele Modelle, die auf alten Tests glänzten, scheiterten hier. Sie konnten die neuen, einzigartigen Aufgaben nicht lösen. Das zeigt: Sie hatten die Antworten nicht verstanden, sondern nur auswendig gelernt.
Der "Kipppunkt": Die KIs funktionieren gut, solange die Aufgabe einfach ist. Aber sobald die Aufgabe einen bestimmten Schwierigkeitsgrad erreicht (wie ein 8x8 Sudoku oder ein Turm mit 7 Scheiben), brechen sie komplett zusammen. Es ist, als würde ein Auto bei 100 km/h noch fahren, aber bei 101 km/h einfach explodieren.
Größe hilft nicht immer: Selbst die größten und teuersten Modelle (die "Superhirne") scheitern oft an diesen komplexen Logikrätseln. Sie sind gut darin, Texte zu schreiben, aber schlecht darin, systematisch zu planen und Fehler zu korrigieren.
Das "Nachdenken"-Problem: Es gab Modelle, die extra dafür trainiert wurden, "nachzudenken" (sie schreiben lange Gedankengänge, bevor sie antworten). Überraschenderweise half das oft gar nicht oder machte es sogar schlimmer! Sie verstrickten sich in ihren eigenen Gedanken, verloren den Überblick und machten mehr Fehler als Modelle, die einfach und direkt antworteten.
Werkzeuge sind der Schlüssel: Die Modelle, die am besten abschnitten, waren diejenigen, die Werkzeuge benutzen durften (wie einen Taschenrechner oder Code ausführen). Das zeigt: Die beste Art für eine KI, komplexe Probleme zu lösen, ist nicht, noch mehr zu "denken", sondern zu wissen, wann sie einen Computer oder Rechner um Hilfe bitten soll – genau wie ein Mensch, der für große Zahlen den Taschenrechner nimmt.

4. Warum ist das wichtig?

BEYONDBENCH ist wie ein ehrlicher Spiegel für KI.
Früher haben wir KI-Modelle gelobt, weil sie gute Noten in Tests bekommen haben. Aber diese Tests waren oft "vergiftet" (die KI hatte die Lösungen schon gesehen).
BEYONDBENCH zeigt uns, wo die KI wirklich steht: Sie ist gut darin, Sprache zu imitieren, aber sie hat noch große Schwierigkeiten, echte, schrittweise Logik anzuwenden, wenn die Aufgabe neu und komplex ist.

Fazit:
Um wirklich intelligente KIs zu bauen, reicht es nicht, sie einfach nur mit mehr Daten zu füttern. Wir müssen ihnen beibringen, wie man Werkzeuge benutzt und wie man systematisch denkt, statt nur Texte vorherzusagen. BEYONDBENCH hilft uns, genau das zu messen, ohne dass die KI schummeln kann.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „BEYONDBENCH: CONTAMINATION-RESISTANT EVALUATION OF REASONING IN LANGUAGE MODELS" auf Deutsch.

1. Problemstellung

Die faire Bewertung von Large Language Models (LLMs) wird zunehmend schwieriger, da statische Benchmarks (wie GSM8K, MATH oder Olympiad-Bench) durch Datenkontamination gefährdet sind. Da Trainingsdaten oft das gesamte Internet umfassen, ist die Wahrscheinlichkeit hoch, dass Testbeispiele bereits im Trainingskorpus enthalten sind. Dies führt dazu, dass Modelle Antworten auswendig lernen (Memorization) anstatt allgemeine Schlussfolgerungsmuster zu erlernen.

Herausforderung: Bestehende dynamische Benchmarks bieten oft keine mathematischen Garantien für die Eindeutigkeit der Lösungen oder sind anfällig für Kontamination.
Lücke: Es fehlt ein Rahmenwerk, das algorithmische Probleme generiert, die mathematisch verifizierbar, kontaminationsresistent und skalierbar in ihrer Schwierigkeit sind.

2. Methodik: Das BEYONDBENCH-Framework

BEYONDBENCH ist ein Evaluierungsrahmenwerk, das auf der algorithmischen Problemgenerierung basiert, um eine endlose Menge an einzigartigen, nicht kontaminierten Testfällen zu erzeugen.

A. Algorithmische Problemgenerierung und mathematische Fundierung

Generierungsraum: Für jede der 44 Aufgabenkategorien wird ein Generator definiert, der Parameter (z. B. Listenlängen, Constraints) und Zufallssamen nutzt. Der kombinatorische Raum pro Aufgabe übersteigt $10^{15}$ eindeutige Instanzen.
Kontaminationsresistenz: Die Wahrscheinlichkeit, dass eine generierte Instanz zufällig in einem praktischen Trainingskorpus ( $|C| < 10^{12}$ ) vorkommt, ist mathematisch beweisbar vernachlässigbar ( $< 10^{-3}$ ).
Verifizierung: Jede generierte Aufgabe wird durch deterministische Verifikatoren (z. B. SAT-Solver, CSP-Löser, dynamische Programmierung) validiert.
- Bei eindeutigen Lösungen wird die Einzigartigkeit bewiesen.
- Bei mehreren gültigen Lösungen wird die vollständige Lösungsmenge enumeriert, um Modelle nicht für korrekte, aber nicht-kanonische Antworten zu bestrafen.

B. Token-bewusste Evaluierung (Token-Aware Evaluation)

Das Framework berücksichtigt die Kontextfenster-Beschränkungen der Modelle:

Dynamische Skalierung: Die Komplexität der Probleme wird basierend auf dem Token-Budget des Modells angepasst. Wenn die erwartete Token-Anzahl das Limit überschreitet, werden die Parameter reduziert.
Vermeidung von „Overthinking": Es wird geprüft, ob Modelle trivialer Probleme übermäßig lange Token-Antworten generieren, was auf ineffizientes Denken hindeutet.

C. Schwierigkeitsstufen (Curriculum)

Die Aufgaben sind in drei Suiten unterteilt, die von einfachen zu komplexen Problemen fortschreiten:

Easy Suite (29 Aufgaben): Polynomielle Zeitkomplexität ( $O(n^k)$ ). Beispiele: Grundrechenarten, Statistiken, Sortieren, Zählen.
Medium Suite (5 Aufgaben, 49 Variationen): Exponentielle Wachstumsmuster. Beispiele: Fibonacci-Sequenzen, geometrische Reihen, Primzahltheorie.
Hard Suite (10 Aufgaben, 68 Variationen): NP-vollständige und NP-harte Probleme. Beispiele: Tower of Hanoi, N-Queens, Graph-Färbung, Boolean SAT, Sudoku, Kryptarithmetik.

3. Wichtige Beiträge

BEYONDBENCH-Generator: Ein Open-Source-Framework, das algorithmische Probleme mit mathematisch verifizierten Lösungen generiert und so Kontamination durch Auswendiglernen unmöglich macht.
Formale Verifizierung: Integration von SAT- und CSP-Lösern, um die Eindeutigkeit oder Vollständigkeit der Lösungsmenge für jede Instanz zu garantieren.
Token-bewusstes Protokoll: Ein Evaluierungsstandard, der Fairness sicherstellt, indem Probleme an die Token-Grenzen der Modelle angepasst werden, um Verzerrungen durch Kontextüberlauf zu vermeiden.
Umfassende empirische Studie: Evaluation von 101 Modellen (85 Open-Source, 16 Closed-Source) mit Größen von 0,5B bis 141B Parametern, einschließlich quantisierter Varianten und „Thinking"-Modelle.

4. Ergebnisse und Erkenntnisse

A. Systematischer Leistungsabfall bei Komplexität

Leistungsabsturz: Modelle zeigen keine graduelle Verschlechterung, sondern einen katastrophalen „Cliff" (Absturz), sobald die algorithmische Komplexität einen kritischen Schwellenwert überschreitet.
- Beispiel: Modelle erreichen bei 4x4 Sudoku 80-90% Genauigkeit, fallen aber bei 9x9 auf unter 10%.
- Beispiel: Tower of Hanoi funktioniert bis 5-6 Scheiben, bricht aber bei 7+ Scheiben komplett zusammen.
Open-Source vs. Proprietär: Proprietäre Modelle (z. B. GPT-5, Gemini-2.5-pro) schneiden deutlich besser ab, erreichen aber auch bei den härtesten Aufgaben nur moderate Genauigkeiten (z. B. GPT-5: ~71% im Hard-Suite, Open-Source-Best-of-Show: ~59%).

B. Skalierungsgesetze und „Thinking"-Modelle

Logarithmische Renditen: Die Leistungssteigerung durch mehr Parameter folgt logarithmischen Kurven mit abnehmenden Grenzerträgen. Große Modelle erreichen ein Plateau bei ca. 30-35% Genauigkeit auf Hard-Suite-Aufgaben.
Begrenzter Nutzen von „Thinking": Modelle, die für erweitertes Nachdenken optimiert sind (z. B. „Thinking"-Varianten), zeigen nur marginale Verbesserungen (oft < 2%). Sie neigen dazu, in langen Denkprozessen den Zustand zu verlieren (State-Management-Fehler) oder falsche Selbstkorrekturen vorzunehmen.
Quantisierung: Aggressive Quantisierung (FP8, INT4) hat kaum negative Auswirkungen (< 3% Verlust) auf die algorithmische Reasoning-Fähigkeit.

C. Werkzeugnutzung (Tool-Augmentation)

Entscheidender Unterschied: Die Leistung von Modellen wie GPT-5 fällt drastisch, wenn der Zugriff auf Tools (Code-Execution, Rechner) entzogen wird (z. B. Rückgang von 16-44% bei GPT-5-Varianten).
Schlussfolgerung: Die Stärke moderner Modelle liegt weniger im reinen sprachbasierten Reasoning, sondern in der Fähigkeit zu erkennen, wann externe Rechenwerkzeuge genutzt werden müssen.

D. Kontaminationsresistenz validiert

Experimente zeigten, dass Modelle, die auf BEYONDBENCH-Daten trainiert wurden, nur begrenzte Verbesserungen auf neuen, nicht überlappenden Instanzen zeigen (insbesondere bei Hard-Suite-Aufgaben), im Gegensatz zu statischen Benchmarks, wo Training zu fast perfekten Scores führt.

5. Bedeutung und Fazit

BEYONDBENCH definiert die Evaluierung von Reasoning-Fähigkeiten neu, indem es echtes algorithmisches Problemlösen statt Auswendiglernen misst.

Kernbotschaft: Die inhärente Reasoning-Fähigkeit in reinen Sprachmodellen ist ein fundamentaler Flaschenhals, der durch reines Skalieren (mehr Parameter) nicht überwunden werden kann.
Zukunftspfad: Der Weg zu Artificial General Intelligence (AGI) liegt nicht in größeren Sprachmodellen, sondern in agentic Architekturen, die Sprachverständnis mit der effektiven Nutzung externer Tools (Rechner, Code-Interpreter) kombinieren.
Reproduzierbarkeit: Das Framework ist als Open-Source-Package verfügbar und ermöglicht eine faire, statistisch robuste und kontaminationsfreie Bewertung zukünftiger Modelle.

Zusammenfassend zeigt BEYONDBENCH, dass aktuelle LLMs bei komplexen, algorithmischen Aufgaben, die systematisches State-Management und Backtracking erfordern, noch weit hinter menschlichen Experten zurückbleiben und dass die wahre Intelligenz in hybriden, tool-nutzenden Systemen liegt.