OJBench: A Competition Level Code Benchmark For Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous vouliez tester la capacité de différents robots à résoudre des énigmes. Jusqu'à présent, on les testait avec des casse-têtes de niveau "entretien d'embauche" : des problèmes logiques mais assez basiques, comme ranger des chaussettes ou calculer un pourboire. Tous les robots intelligents réussissaient ces tests avec des notes parfaites, ce qui rendait impossible de savoir qui était vraiment le génie et qui se contentait de copier-coller.

C'est là qu'intervient OJBench, le nouveau champion du monde des tests de code pour les intelligences artificielles (IA).

Voici l'explication de cette découverte, servie avec quelques analogies simples :

1. Le Problème : Les examens étaient trop faciles

Auparavant, les benchmarks (les examens) pour les IA de code ressemblaient à des exercices de mathématiques de collège. Même les modèles les plus avancés obtenaient 20/20. C'était comme demander à un champion olympique de natation de nager dans une petite piscine pour enfants : tout le monde gagne, et on ne voit pas qui est le meilleur.

2. La Solution : OJBench, le "Grand Prix" du code

Les chercheurs ont créé OJBench en puisant directement dans les vrais championnats mondiaux de programmation (comme les Olympiades Informatiques et les compétitions universitaires ICPC).

L'analogie : Au lieu de demander aux robots de faire un tour de piscine, on les a jetés dans l'Océan Pacifique avec des requins.
Le contenu : OJBench contient 232 problèmes ultra-complexes, conçus pour les meilleurs programmeurs humains du monde. Ces problèmes ne demandent pas juste de "savoir coder", mais de penser comme un architecte de génie sous une pression extrême.

3. Les Résultats : Même les champions trébuchent

Les chercheurs ont mis à l'épreuve 37 robots (des IA célèbres comme celles d'OpenAI, Google, ou des modèles chinois comme DeepSeek et Qwen).

Le verdict : Même les robots les plus "intelligents" (ceux qui ont été entraînés à réfléchir longuement avant de répondre) ont eu du mal.
L'image : Imaginez que vous demandiez à un humain de résoudre un problème de physique quantique en 30 secondes. Même les meilleurs physiciens du monde auraient du mal. C'est ce qui arrive aux IA sur OJBench : elles butent sur les problèmes les plus difficiles. Leurs notes sont bien plus basses que sur les anciens tests faciles.

4. Deux langues, deux performances

L'étude a aussi regardé si la langue de programmation comptait.

Python vs C++ : La plupart des gens utilisent Python (comme une voiture automatique, facile à conduire). Mais dans les compétitions de haut niveau, les humains utilisent le C++ (comme une Formule 1, plus complexe mais beaucoup plus rapide).
La découverte : Les IA performantes sont meilleures en C++ qu'en Python sur ces problèmes difficiles. C'est comme si le robot comprenait mieux le moteur de la Formule 1 que le volant de la voiture automatique quand la route devient dangereuse.

5. L'apprentissage par l'erreur (Le "Refinement")

Dans la vraie vie, quand un programmeur se trompe, il voit un message d'erreur, corrige, et réessaie. Les chercheurs ont demandé aux IA de faire pareil : "Tu as échoué, voici pourquoi, réessaie".

Ce qui marche : Les IA corrigent très bien les erreurs de "syntaxe" (comme une faute de frappe ou un oubli de virgule). C'est comme réparer un pneu crevé.
Ce qui échoue : Les IA peinent à corriger les erreurs de "logique" ou de "temps" (quand le calcul est trop long). C'est comme si le robot ne comprenait pas qu'il faut changer de route pour éviter un embouteillage, il continue de tourner en rond. Cela montre qu'elles ont encore du mal à inventer de nouvelles stratégies complexes.

En résumé

OJBench est un nouveau miroir très exigeant. Il nous dit que si nos IA sont devenues de très bons apprentis codeurs capables de faire des tâches quotidiennes, elles ne sont pas encore devenues des "maîtres architectes" capables de résoudre les problèmes les plus fous de la planète.

C'est une bonne nouvelle pour les chercheurs : cela signifie qu'il reste beaucoup de travail à faire pour atteindre le niveau humain dans les situations les plus complexes, et OJBench est la boussole qui va les guider.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de langage de grande taille (LLM) ont montré des progrès significatifs en raisonnement mathématique et en génération de code. Cependant, les benchmarks existants (comme LiveCodeBench ou CodeElo) présentent des limites majeures pour évaluer les capacités de raisonnement au niveau des compétitions de programmation :

Niveau de difficulté insuffisant : La plupart des problèmes actuels correspondent au niveau des entretiens d'embauche ou aux algorithmes de base, ne permettant pas de différencier les modèles les plus avancés.
Manque de rigueur : Les évaluations se font souvent sur un nombre limité de cas de test, ce qui entraîne des résultats positifs faux (fausses réussites).
Biais linguistique : La majorité des benchmarks évaluent uniquement le Python, alors que les compétitions de haut niveau (ICPC, NOI) privilégient le C++ pour ses performances et sa gestion de la complexité temporelle.

Il existe donc un besoin critique d'un benchmark de niveau "compétition" utilisant des problèmes réels de tournois humains pour tester les limites réelles des LLM.

2. Méthodologie : OJBench

L'article présente OJBench, un nouveau benchmark conçu pour évaluer les capacités de raisonnement en code des LLM dans un contexte compétitif.

A. Collecte et Filtrage des Données

Sources : Les problèmes proviennent de deux sources prestigieuses : l'Olympiade Nationale d'Informatique (NOI) de Chine et la Compétition Internationale de Programmation pour Étudiants (ICPC).
Volume : Le jeu de données final contient 232 problèmes.
Filtrage rigoureux :
- Validation des cas de test via des soumissions correctes de participants humains.
- Élimination des problèmes nécessitant un "special judge" (juges personnalisés complexes) pour garantir une évaluation objective basée sur les entrées/sorties.
- Traduction des énoncés (NOI) en anglais avec vérification manuelle.
Classification de la difficulté :
- NOI : Basée sur les votes des participants (échelles 0-7).
- ICPC : Calcul d'un score de difficulté basé sur le taux de réussite et le taux de tentative des équipes lors des compétitions réelles.
- Les problèmes sont classés en Facile, Moyen et Difficile.

B. Méthode d'Évaluation

Évaluation par Cas de Test Complets : Contrairement aux approches précédentes, OJBench exige que la solution passe l'intégralité des cas de test fournis par les organisateurs pour être considérée comme correcte. Cela élimine les faux positifs.
Support Bilingue : Évaluation simultanée en Python et en C++ (CPP) pour analyser l'impact du langage sur la performance.
Métrique : Utilisation du Pass@n (probabilité qu'au moins une solution sur $n$ tentatives soit correcte).

C. Protocole Expérimental

Modèles testés : 37 modèles au total, incluant des modèles open-source (Qwen, DeepSeek, CodeLlama) et fermés (GPT-4o, o1, o4-mini, Gemini), classés en "orientés raisonnement" (avec CoT long) et "non orientés raisonnement".
Analyse de raffinement : Test de la capacité des modèles à corriger leurs erreurs en utilisant les retours d'exécution (messages d'erreur comme TLE, WA, CE).

3. Résultats Clés

A. Performance Globale

Écart Open/Closed Source : Les modèles propriétaires (Closed-source) surpassent généralement les modèles open-source.
Rôle du Raisonnement : Les modèles orientés raisonnement (ex: o4-mini, Gemini-2.5-pro-exp, DeepSeek-R1) surpassent nettement les modèles non orientés raisonnement, même sur des tâches complexes.
Limites actuelles : Même les modèles les plus avancés (ex: o4-mini, Gemini-2.5-pro-exp) peinent sur les problèmes "Difficiles".
- Exemple : Sur les problèmes difficiles, le taux de réussite de o4-mini est de 5,77% (en Python) et 5,77% (en CPP), tandis que Gemini-2.5-pro-exp atteint 9,48%.
- Les modèles non orientés raisonnement ont un taux de réussite proche de 0% sur les problèmes difficiles.

B. Comparaison Python vs C++

Pour la plupart des modèles orientés raisonnement avancés, le C++ offre de meilleures performances que le Python sur OJBench.
Cela s'explique par la nature des problèmes de compétition qui imposent des contraintes strictes de complexité temporelle, mieux gérées par le C++.
Note : Certains modèles open-source (comme la série Qwen distillée de DeepSeek-R1) performent mieux en Python, probablement dû à la composition de leurs données d'entraînement.

C. Analyse des Erreurs et Raffinement

Correction par feedback : Les modèles peuvent améliorer leur taux de réussite en utilisant les messages d'erreur (Compilation, Exécution, etc.).
Limites du raffinement :
- Les erreurs de compilation (CE) sont facilement corrigées.
- Les erreurs de dépassement de temps (TLE) restent très difficiles à résoudre par raffinement, car elles nécessitent de concevoir de nouveaux algorithmes plus efficaces, ce qui est un défi majeur de raisonnement.

D. Comparaison avec LiveCodeBench

Les modèles performants sur LiveCodeBench (ex: o4-mini avec 63,7% de réussite) voient leur performance chuter drastiquement sur OJBench (33,3%), confirmant que OJBench est un benchmark significativement plus difficile et plus discriminant.

4. Contributions Principales

Introduction d'OJBench : Un benchmark de niveau compétition composé de 232 problèmes réels de NOI et ICPC, offrant un test plus rigoureux que les benchmarks existants.
Évaluation exhaustive : Analyse de 37 modèles, révélant les limites actuelles des LLM les plus avancés face au raisonnement algorithmique complexe.
Insights techniques :
- Démonstration de l'avantage du C++ sur le Python pour les tâches de compétition.
- Mise en évidence de la difficulté persistante des modèles à optimiser les algorithmes (résolution des TLE) même avec des mécanismes de raffinement.
- Preuve que le pré-entraînement à grande échelle ne suffit pas ; le raisonnement par renforcement et la distillation sont essentiels.

5. Signification et Impact

OJBench comble un vide critique dans l'évaluation des LLM. Il démontre que malgré les progrès récents, les modèles actuels ne maîtrisent pas encore pleinement le raisonnement algorithmique de niveau expert requis pour les compétitions de programmation de haut niveau.

Ce travail fournit :

Une boussole pour guider le développement futur des LLM orientés code.
Une preuve que les benchmarks actuels sous-estiment les difficultés réelles, conduisant à une surévaluation des capacités des modèles.
Des directives claires : l'importance de l'entraînement sur des données de compétition réelles, l'utilisation du C++, et le développement de mécanismes capables de concevoir des algorithmes optimaux plutôt que de simplement corriger des bugs de syntaxe.