OJBench: A Competition Level Code Benchmark For Large Language Models

이 논문은 NOI 와 ICPC 의 232 개 문제를 포함하는 새로운 벤치마크 'OJBench'를 제안하여, 최신 LLM 들조차도 고난이도 경쟁 수준의 코드 추론 작업에서는 여전히 심각한 한계를 겪고 있음을 37 개 모델 평가를 통해 입증했습니다.

Zhexu Wang, Yiping Liu, Yejie Wang, Wenyang He, Bofei Gao, Muxi Diao, Yanxu Chen, Kelin Fu, Flood Sung, Zhilin Yang, Tianyu Liu, Weiran Xu

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"LLM(거대 언어 모델) 이 코딩 실력 대회에서 얼마나 잘하는지 측정하는 새로운 시험지, 'OJBench'"**을 소개합니다.

기존의 시험지들이 너무 쉬워서 최상위권 AI 들의 실력을 제대로 가려내지 못하자, 연구팀이 **"진짜 프로 코딩 대회 (NOI, ICPC) 문제"**를 모아 훨씬 더 어렵고 엄격한 시험지를 만들었습니다.

이 내용을 일반인이 이해하기 쉽게 세 가지 핵심 비유로 설명해 드릴게요.


1. 왜 새로운 시험지가 필요했을까? (과거 vs 현재)

비유: "초등학교 수학 문제 vs 국제 수학 올림피아드"

  • 기존의 시험 (LiveCodeBench 등): 마치 "초등학교 3 학년 수준의 수학 문제"를 풀게 하는 것과 비슷합니다. 최근 AI 들은 이 정도 문제는 거의 100 점 만점을 맞을 정도로 잘 풉니다. 하지만 이걸로 AI 가 진짜로 얼마나 똑똑한지, 한계가 어디인지 알 수 없습니다.
  • 새로운 시험 (OJBench): 연구팀은 "전 세계 최고의 천재 코딩 대회 (NOI, ICPC) 에서 실제로 출제된 난이도 높은 문제" 232 개를 모았습니다. 이는 마치 일반인이나 대학생에게 "수학 올림피아드 최상위권 문제"를 풀게 하는 것과 같습니다.
  • 결과: 최신 AI 모델들 (OpenAI 의 o4-mini, 구글의 Gemini 등) 도 이 시험에서는 아주 고전했습니다. 많은 AI 가 "난이도 높은 문제" 앞에서 막히거나, 아예 풀지 못했습니다.

2. 어떤 발견이 있었을까? (AI 의 실력 분석)

이 시험지를 통해 AI 들의 실력을 분석한 결과, 몇 가지 흥미로운 사실이 드러났습니다.

  • 추론 능력 (Reasoning) 이 핵심: 단순히 코드를 많이 외운 AI(일반 코딩 모델) 보다는, **문제를 논리적으로 추론하는 훈련을 받은 AI(추론 모델)**가 훨씬 잘 풀었습니다. 하지만 그래도 최상위 난이도 문제는 여전히 어렵습니다.
  • 언어의 차이 (파이썬 vs C++):
    • 대부분의 AI 는 파이썬으로 코딩하는 것을 더 잘합니다.
    • 하지만 **진짜 코딩 대회 (OJBench) 에서는 C++(CPP)**로 코딩했을 때 점수가 더 높았습니다.
    • 이유: C++ 는 파이썬보다 속도가 훨씬 빠르고 효율적입니다. 어려운 문제를 풀 때는 "정답"뿐만 아니라 "시간 내에 해결하는 것"도 중요하기 때문입니다. 마치 달리기 대회에서 가벼운 신발 (C++) 을 신었을 때 더 잘 달리는 것과 같습니다.
  • 실수 수정 능력 (Refinement):
    • AI 가 처음에 틀린 코드를 짜면, 컴퓨터가 "에러 메시지"를 알려줍니다. AI 는 이 메시지를 보고 코드를 고칠 수 있습니다.
    • 재미있는 점: AI 는 문법 오류 (컴파일 에러) 를 고치는 건 잘하지만, 알고리즘이 너무 느려서 시간 초과 (TLE) 가 나는 문제를 고치는 건 매우 어려워했습니다. 이는 AI 가 "더 효율적인 해결책"을 스스로 설계하는 데는 아직 한계가 있다는 뜻입니다.

3. 이 연구의 의미는 무엇일까?

이 논문은 **"AI 가 코딩을 잘한다고 해서, 모든 문제를 다 푼다는 뜻은 아니다"**라고 경고합니다.

  • 현재 상황: AI 는 쉬운 문제나 중급 문제는 잘 풀지만, 진짜 어려운 경쟁 수준 (Competition Level) 의 문제에서는 여전히 인간 전문가들에게 밀립니다.
  • 미래 방향: 앞으로 더 똑똑한 AI 를 만들려면, 단순히 코드를 많이 읽게 하는 것뿐만 아니라, 복잡한 문제를 논리적으로 추론하고, 효율적인 알고리즘을 설계하는 능력을 키워야 합니다.

요약

"OJBench 는 AI 들에게 '코딩의 최강자'가 되기 위한 '최고난도 시험'을 치르게 한 것입니다. 결과는? 최신 AI 들도 고전했지만, 이 시험을 통해 AI 의 진짜 한계와 앞으로 발전해야 할 방향을 정확히 파악할 수 있게 되었습니다."

이처럼 OJBench 는 AI 의 코딩 실력을 가늠하는 새로운 **기준점 (Benchmark)**이 될 것입니다.