OJBench: A Competition Level Code Benchmark For Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep slimme robots (deze "Large Language Models" of LLM's) wilt testen op hun programmeervaardigheden. Tot nu toe werden ze vaak getest met simpele taken, zoals het schrijven van een korte functie of het oplossen van een standaard puzzel. Het was alsof je ze vroeg: "Kun je een ei bakken?"

De auteurs van dit paper, OJBench, zeggen: "Dat is leuk, maar dat is niet genoeg om te zien wie écht een meesterkok is." Ze wilden weten of deze robots ook de zware, complexe gerechten kunnen klaarmaken die alleen de beste chefs ter wereld kunnen maken.

Hier is wat ze hebben gedaan, vertaald naar alledaagse taal:

1. De Nieuwe Test: OJBench

De onderzoekers hebben een nieuwe test ontwikkeld genaamd OJBench.

De Bron: In plaats van simpele oefeningen, hebben ze 232 van de allerzwaarste programmeeropgaven gehaald uit echte, wereldwijde wedstrijden voor programmeurs (zoals de Olympiade voor Informatica en de ICPC).
De Analogie: Stel je voor dat je tot nu toe alleen de leerlingen van de basisschool hebt getest op het kunnen tellen tot 10. OJBench is alsof je de beste wiskundestudenten van de universiteit uitdaagt om een complexe vergelijking op te lossen terwijl ze rennen. Het is een "topniveau" test.

2. De Resultaten: Zelfs de Slimsten Struikelen

Ze hebben 37 verschillende AI-modellen getest, van open-source projecten tot de duurste, gesloten modellen van grote tech-bedrijven.

Het Verdict: Zelfs de allerbeste "redenerende" modellen (zoals de nieuwste versies van o4-mini en Gemini) hebben het zwaar. Ze krijgen veel van deze moeilijke opgaven niet goed.
De Les: Het is alsof je een Formule 1-auto test op een racecircuit, maar de auto blijft steken in de modder. Het laat zien dat AI nog niet klaar is voor de allerzwaarste, meest creatieve programmeerproblemen.

3. Twee Talen: Python vs. C++

In de test hebben ze gekeken of het uitmaakt in welke taal de robot programmeert.

Python: Dit is de "gemakkelijke" taal, zoals een fiets. Veel mensen (en AI's) gebruiken dit omdat het makkelijk is.
C++: Dit is de "racefiets" of de "Formule 1". Het is sneller en krachtiger, maar veel moeilijker te besturen.
De Verrassing: Voor de allerzwaarste problemen bleek dat de slimste AI's het beter deden in C++ dan in Python. Waarom? Omdat de problemen zo snel moeten worden opgelost dat de "snelle fiets" (C++) nodig is. De AI's lijken te begrijpen dat je voor een marathon niet met een wandelstok kunt rennen.

4. De "Herhaal-En-Fout" Methode

In echte wedstrijden mogen programmeurs hun code testen, zien waar het misgaat, en het dan verbeteren. De onderzoekers lieten de AI's dit ook doen.

Wat gebeurde er? Als de AI een fout maakte (bijvoorbeeld een typfout in de code), kon ze die vaak snel oplossen door de foutmelding te lezen.
De Moeilijkheid: Maar als de fout zat in de logica (bijvoorbeeld: "Ik heb een te traag plan bedacht"), lukte het verbeteren vaak niet. De AI kon de fout niet "fixen" omdat het hele idee achter de oplossing verkeerd was. Het is alsof je een auto probeert te repareren door de banden te pompen, terwijl de motor kapot is.

5. Waarom is dit belangrijk?

Vroeger dachten we dat AI's bijna alles konden. Deze test laat zien dat er nog een enorme kloof is tussen "goed kunnen programmeren" en "een wereldkampioenschap kunnen winnen".

Voor de toekomst: Het helpt ontwikkelaars om te zien waar ze hun AI's moeten verbeteren. Ze moeten niet alleen meer data leren, maar vooral leren hoe ze complexe, creatieve problemen moeten oplossen, net als een menselijke kampioen.

Kortom: OJBench is de nieuwe "Olympische Spelen" voor programmeer-AI's. En tot nu toe hebben de robots laten zien dat ze nog veel moeten trainen voordat ze de gouden medaille kunnen winnen.

OJBench: A Competition Level Code Benchmark For Large Language Models

1. De Nieuwe Test: OJBench

2. De Resultaten: Zelfs de Slimsten Struikelen

3. Twee Talen: Python vs. C++

4. De "Herhaal-En-Fout" Methode

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie: OJBench

Belangrijkste Bijdragen

Resultaten

Significantie en Conclusie

OJBench: A Competition Level Code Benchmark For Large Language Models

1. De Nieuwe Test: OJBench

2. De Resultaten: Zelfs de Slimsten Struikelen

3. Twee Talen: Python vs. C++

4. De "Herhaal-En-Fout" Methode

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie: OJBench

Belangrijkste Bijdragen

Resultaten

Significantie en Conclusie

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics