OJBench: A Competition Level Code Benchmark For Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr schlauen Roboter, der alles lesen und verstehen kann. Bisher haben wir diesen Roboter getestet, indem wir ihm einfache Aufgaben gestellt haben, wie „Schreibe eine kleine Funktion, die zwei Zahlen addiert" oder „Löse ein einfaches Rätsel". Das war so, als würden wir einen Marathonläufer testen, indem wir ihn nur eine Runde um den Block laufen lassen. Er hat es geschafft, aber wir wissen immer noch nicht, ob er wirklich ein Weltklasse-Athlet ist.

Die Forscher in diesem Papier (OJBench) sagen: „Das reicht nicht!" Sie wollen wissen, ob dieser Roboter auch wirklich schwerste Aufgaben lösen kann – Aufgaben, die nur die allerbesten menschlichen Programmierer der Welt bewältigen.

Hier ist die Geschichte des Papiers, einfach erklärt:

1. Das neue Prüfungsheft: OJBench

Bisher gab es keine richtigen „Olympia-Prüfungen" für KI-Programmierer. Die alten Tests waren wie Schulhausaufgaben. Die Forscher haben sich daher etwas Neues ausgedacht: OJBench.

Stellen Sie sich OJBench wie ein großes, strenges Turnier vor, das aus 232 extrem schwierigen Aufgaben besteht. Diese Aufgaben stammen nicht aus einfachen Übungsheften, sondern aus den echten, härtesten Programmier-Wettbewerben der Welt (wie der NOI in China oder dem ICPC für Studenten).

Die Aufgabe: Die KI muss nicht nur Code schreiben, sondern komplexe Algorithmen erfinden, die unter Zeitdruck und mit strengen Regeln funktionieren.
Der Unterschied: Frühere Tests waren wie ein Spaziergang im Park. OJBench ist ein Bergsteigen im Himalaya ohne Sauerstoffmaske.

2. Der Testlauf: Wer ist der Schnellste?

Die Forscher haben 37 verschiedene KI-Modelle (sowohl die kostenlosen, offenen Modelle als auch die teuren, geschlossenen von Firmen wie OpenAI oder Google) durch dieses harte Programm geschickt.

Was sie herausfanden:

Die „Normalen": Die meisten KIs, die nur darauf trainiert wurden, Code zu schreiben (wie ein Handwerker, der nur einfache Reparaturen kennt), sind an diesen Aufgaben gescheitert. Sie haben bei den schweren Aufgaben fast gar nichts richtig gemacht.
Die „Denker": Es gibt eine neue Art von KI, die besonders gut im Nachdenken ist (man nennt sie „Reasoning-Models"). Diese KIs haben sich wie ein Schachgroßmeister verhalten: Sie denken lange nach, bevor sie antworten. Sie waren deutlich besser als die anderen.
Aber: Selbst die allerbesten KIs (die „Super-Genies") haben bei den allerhärtesten Aufgaben noch Probleme. Sie schaffen es nicht immer, die perfekte Lösung zu finden. Es ist, als ob ein Weltklasse-Schachspieler gegen einen Computer spielt, der manchmal noch einen Zug falsch berechnet.

3. Die Sprache der Wahl: Python vs. C++

Im Test haben die KIs zwei Sprachen benutzt: Python (einfach und beliebt) und C++ (schnell, aber kompliziert).

Die Überraschung: Bei diesen extrem schwierigen Aufgaben war C++ für die KIs oft besser.
Die Analogie: Stellen Sie sich vor, Sie müssen einen schweren Stein über einen Fluss tragen. Python ist wie ein bequemer Rucksack, aber er ist langsam. C++ ist wie ein sportlicher Gürtel – schwerer zu tragen, aber viel schneller. Da die Aufgaben im Wettbewerb extrem schnell sein müssen, kamen die KIs mit dem „sportlichen Gürtel" (C++) besser zurecht.

4. Lernen aus Fehlern: Der „Debug"-Effekt

Im echten Leben, wenn ein Programmierer einen Fehler macht, sieht er eine Fehlermeldung und korrigiert den Code. Die Forscher haben die KIs auch so getestet:

Der Versuch: Die KI schreibt Code -> Der Computer sagt „Fehler!" -> Die KI liest den Fehler und versucht es noch einmal.
Das Ergebnis: Die KIs wurden mit jedem Versuch besser! Besonders bei kleinen Fehlern (wie Tippfehlern) half das sehr gut.
Das Problem: Bei den wirklich schweren Fehlern (wo der Algorithmus einfach zu langsam ist) half das Nachbessern nicht so gut. Die KI wusste nicht, wie sie den „Motor" des Programms schneller machen sollte. Das zeigt: Die KIs können Fehler reparieren, aber sie haben noch Schwierigkeiten, völlig neue, effiziente Ideen zu entwickeln.

Fazit: Was bedeutet das für uns?

Dieses Papier ist wie ein Warnsignal und eine Landkarte für die Zukunft.

Es sagt uns: „Unsere KIs sind schon sehr schlau, aber wenn es um die absolut schwierigsten mathematischen und logischen Rätsel geht, sind sie noch nicht so gut wie die besten menschlichen Experten."

OJBench ist das neue Maßband, mit dem wir in Zukunft messen werden, ob eine KI wirklich „intelligent" ist oder nur gut auswendig gelernt hat. Es hilft den Entwicklern zu verstehen, wo sie noch an den Motoren ihrer KIs schrauben müssen, damit diese eines Tages echte Probleme der Welt lösen können – nicht nur einfache Aufgaben.

OJBench: A Competition Level Code Benchmark For Large Language Models

1. Das neue Prüfungsheft: OJBench

2. Der Testlauf: Wer ist der Schnellste?

3. Die Sprache der Wahl: Python vs. C++

4. Lernen aus Fehlern: Der „Debug"-Effekt

Fazit: Was bedeutet das für uns?

1. Problemstellung

2. Methodik: OJBench

3. Experimentelles Setup

4. Wichtige Ergebnisse

5. Hauptbeiträge

6. Bedeutung und Ausblick

OJBench: A Competition Level Code Benchmark For Large Language Models

1. Das neue Prüfungsheft: OJBench

2. Der Testlauf: Wer ist der Schnellste?

3. Die Sprache der Wahl: Python vs. C++

4. Lernen aus Fehlern: Der „Debug"-Effekt

Fazit: Was bedeutet das für uns?

1. Problemstellung

2. Methodik: OJBench

3. Experimentelles Setup

4. Wichtige Ergebnisse

5. Hauptbeiträge

6. Bedeutung und Ausblick

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics