OJBench: A Competition Level Code Benchmark For Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que os modelos de linguagem (como o ChatGPT ou o DeepSeek) são como estudantes superdotados que leram quase todos os livros do mundo. Eles são ótimos em escrever poemas, resumir textos e até resolver problemas de matemática do ensino médio.

Mas, e se quisermos saber se eles conseguem vencer uma Olimpíada de Matemática ou um Campeonato de Programação contra os melhores gênios do mundo? É aí que entra o OJBench.

Aqui está uma explicação simples do que os autores descobriram, usando algumas analogias:

1. O Problema: A "Prova de Fogo"

Até agora, os testes para ver se esses robôs são bons em programação eram como provas de vestibular. Eram questões difíceis, mas que muitos estudantes bons conseguiam resolver. Era como pedir para um atleta correr 100 metros: todos os modelos de ponta conseguiam fazer um tempo decente, e era difícil saber quem era realmente o campeão.

Os autores criaram o OJBench para mudar isso. Eles pegaram 232 problemas reais de competições de elite (como a Olimpíada Nacional de Informática da China e o ICPC, que é o "Mundial" de programação universitária).

A analogia: Em vez de pedir para o robô correr 100 metros, eles o colocaram numa maratona na montanha com neve. É um teste muito mais difícil e realista.

2. O Resultado: A Realidade Dura

Quando eles colocaram 37 modelos diferentes (desde os gratuitos e abertos até os mais caros e fechados da OpenAI e Google) para resolver esses problemas, a surpresa foi grande:

Mesmo os "gênios" tropeçam: Os modelos mais inteligentes do mundo, que usam técnicas avançadas de "raciocínio" (como o o4-mini ou o Gemini-2.5), ainda têm muita dificuldade. Eles conseguem resolver os problemas fáceis, mas na hora dos problemas "difíceis" (nível olímpico), a maioria deles falha.
A lição: É como se você tivesse um carro de Fórmula 1, mas ele ainda não consegue passar por uma pista de rally cheia de buracos. A tecnologia é incrível, mas ainda não é perfeita para o nível mais alto de desafio.

3. A Linguagem Importa: Python vs. C++

O teste foi feito em duas linguagens: Python (fácil de ler, como falar em português) e C++ (mais complexo, mas super rápido, como falar em código binário).

O que eles descobriram: Para os modelos mais avançados, usar C++ foi como dar a eles um superpoder. Eles se saíram muito melhor no C++ do que no Python.
Por que? Em competições reais, os humanos usam C++ porque ele é mais rápido e eficiente. Os modelos, quando treinados para pensar como humanos de elite, também entendem que precisam dessa "velocidade" para ganhar a prova.

4. O "Aprendizado com Erros" (Refinamento)

Os autores testaram uma coisa interessante: e se, quando o robô errasse, eles mostrassem o erro para ele e pedissem para ele tentar de novo?

O que aconteceu: Funcionou! Quando o robô recebia a mensagem de erro (como "seu código travou" ou "resposta errada"), ele conseguia corrigir e acertar mais problemas.
O limite: Eles conseguem corrigir erros de digitação ou lógica simples (como um aluno que percebe que esqueceu um ponto e vírgula). Mas, quando o erro era porque o algoritmo era muito lento (o computador demoraria 100 anos para resolver), o robô tinha muita dificuldade em inventar uma solução nova e mais rápida. É como pedir para alguém que está correndo devagar inventar um novo método de corrida para ganhar de um atleta olímpico.

5. Conclusão: O Futuro

O OJBench é como um novo "termômetro" para a inteligência artificial. Ele nos diz que:

Os modelos atuais são muito bons, mas não são onipotentes.
Para chegar ao próximo nível, eles precisam aprender a pensar como os melhores programadores humanos, não apenas memorizar códigos.
A tecnologia está avançando, mas ainda há um "abismo" entre o que os robôs fazem hoje e o que os campeões mundiais de programação fazem.

Resumo em uma frase: O OJBench é a prova de que, embora nossos robôs sejam estudantes brilhantes, eles ainda precisam de muito mais treino para vencer as Olimpíadas de Programação do mundo real.

OJBench: A Competition Level Code Benchmark For Large Language Models

1. O Problema: A "Prova de Fogo"

2. O Resultado: A Realidade Dura

3. A Linguagem Importa: Python vs. C++

4. O "Aprendizado com Erros" (Refinamento)

5. Conclusão: O Futuro

1. Problema Identificado

2. Metodologia: OJBench

3. Principais Contribuições

4. Resultados Chave

5. Significado e Conclusão

OJBench: A Competition Level Code Benchmark For Large Language Models

1. O Problema: A "Prova de Fogo"

2. O Resultado: A Realidade Dura

3. A Linguagem Importa: Python vs. C++

4. O "Aprendizado com Erros" (Refinamento)

5. Conclusão: O Futuro

1. Problema Identificado

2. Metodologia: OJBench

3. Principais Contribuições

4. Resultados Chave

5. Significado e Conclusão

Mais como este

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics