OJBench: A Competition Level Code Benchmark For Large Language Models

Ce papier présente OJBench, un nouveau benchmark compétitif composé de 232 problèmes de programmation issus de l'OI et de l'ICPC, qui révèle que même les modèles de raisonnement les plus avancés peinent à résoudre des défis de code de niveau concours.

Zhexu Wang, Yiping Liu, Yejie Wang, Wenyang He, Bofei Gao, Muxi Diao, Yanxu Chen, Kelin Fu, Flood Sung, Zhilin Yang, Tianyu Liu, Weiran Xu

Publié 2026-03-03
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous vouliez tester la capacité de différents robots à résoudre des énigmes. Jusqu'à présent, on les testait avec des casse-têtes de niveau "entretien d'embauche" : des problèmes logiques mais assez basiques, comme ranger des chaussettes ou calculer un pourboire. Tous les robots intelligents réussissaient ces tests avec des notes parfaites, ce qui rendait impossible de savoir qui était vraiment le génie et qui se contentait de copier-coller.

C'est là qu'intervient OJBench, le nouveau champion du monde des tests de code pour les intelligences artificielles (IA).

Voici l'explication de cette découverte, servie avec quelques analogies simples :

1. Le Problème : Les examens étaient trop faciles

Auparavant, les benchmarks (les examens) pour les IA de code ressemblaient à des exercices de mathématiques de collège. Même les modèles les plus avancés obtenaient 20/20. C'était comme demander à un champion olympique de natation de nager dans une petite piscine pour enfants : tout le monde gagne, et on ne voit pas qui est le meilleur.

2. La Solution : OJBench, le "Grand Prix" du code

Les chercheurs ont créé OJBench en puisant directement dans les vrais championnats mondiaux de programmation (comme les Olympiades Informatiques et les compétitions universitaires ICPC).

  • L'analogie : Au lieu de demander aux robots de faire un tour de piscine, on les a jetés dans l'Océan Pacifique avec des requins.
  • Le contenu : OJBench contient 232 problèmes ultra-complexes, conçus pour les meilleurs programmeurs humains du monde. Ces problèmes ne demandent pas juste de "savoir coder", mais de penser comme un architecte de génie sous une pression extrême.

3. Les Résultats : Même les champions trébuchent

Les chercheurs ont mis à l'épreuve 37 robots (des IA célèbres comme celles d'OpenAI, Google, ou des modèles chinois comme DeepSeek et Qwen).

  • Le verdict : Même les robots les plus "intelligents" (ceux qui ont été entraînés à réfléchir longuement avant de répondre) ont eu du mal.
  • L'image : Imaginez que vous demandiez à un humain de résoudre un problème de physique quantique en 30 secondes. Même les meilleurs physiciens du monde auraient du mal. C'est ce qui arrive aux IA sur OJBench : elles butent sur les problèmes les plus difficiles. Leurs notes sont bien plus basses que sur les anciens tests faciles.

4. Deux langues, deux performances

L'étude a aussi regardé si la langue de programmation comptait.

  • Python vs C++ : La plupart des gens utilisent Python (comme une voiture automatique, facile à conduire). Mais dans les compétitions de haut niveau, les humains utilisent le C++ (comme une Formule 1, plus complexe mais beaucoup plus rapide).
  • La découverte : Les IA performantes sont meilleures en C++ qu'en Python sur ces problèmes difficiles. C'est comme si le robot comprenait mieux le moteur de la Formule 1 que le volant de la voiture automatique quand la route devient dangereuse.

5. L'apprentissage par l'erreur (Le "Refinement")

Dans la vraie vie, quand un programmeur se trompe, il voit un message d'erreur, corrige, et réessaie. Les chercheurs ont demandé aux IA de faire pareil : "Tu as échoué, voici pourquoi, réessaie".

  • Ce qui marche : Les IA corrigent très bien les erreurs de "syntaxe" (comme une faute de frappe ou un oubli de virgule). C'est comme réparer un pneu crevé.
  • Ce qui échoue : Les IA peinent à corriger les erreurs de "logique" ou de "temps" (quand le calcul est trop long). C'est comme si le robot ne comprenait pas qu'il faut changer de route pour éviter un embouteillage, il continue de tourner en rond. Cela montre qu'elles ont encore du mal à inventer de nouvelles stratégies complexes.

En résumé

OJBench est un nouveau miroir très exigeant. Il nous dit que si nos IA sont devenues de très bons apprentis codeurs capables de faire des tâches quotidiennes, elles ne sont pas encore devenues des "maîtres architectes" capables de résoudre les problèmes les plus fous de la planète.

C'est une bonne nouvelle pour les chercheurs : cela signifie qu'il reste beaucoup de travail à faire pour atteindre le niveau humain dans les situations les plus complexes, et OJBench est la boussole qui va les guider.