OJBench: A Competition Level Code Benchmark For Large Language Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"LLM(거대 언어 모델) 이 코딩 실력 대회에서 얼마나 잘하는지 측정하는 새로운 시험지, 'OJBench'"**을 소개합니다.

기존의 시험지들이 너무 쉬워서 최상위권 AI 들의 실력을 제대로 가려내지 못하자, 연구팀이 **"진짜 프로 코딩 대회 (NOI, ICPC) 문제"**를 모아 훨씬 더 어렵고 엄격한 시험지를 만들었습니다.

이 내용을 일반인이 이해하기 쉽게 세 가지 핵심 비유로 설명해 드릴게요.

비유: "초등학교 수학 문제 vs 국제 수학 올림피아드"

기존의 시험 (LiveCodeBench 등): 마치 "초등학교 3 학년 수준의 수학 문제"를 풀게 하는 것과 비슷합니다. 최근 AI 들은 이 정도 문제는 거의 100 점 만점을 맞을 정도로 잘 풉니다. 하지만 이걸로 AI 가 진짜로 얼마나 똑똑한지, 한계가 어디인지 알 수 없습니다.
새로운 시험 (OJBench): 연구팀은 "전 세계 최고의 천재 코딩 대회 (NOI, ICPC) 에서 실제로 출제된 난이도 높은 문제" 232 개를 모았습니다. 이는 마치 일반인이나 대학생에게 "수학 올림피아드 최상위권 문제"를 풀게 하는 것과 같습니다.
결과: 최신 AI 모델들 (OpenAI 의 o4-mini, 구글의 Gemini 등) 도 이 시험에서는 아주 고전했습니다. 많은 AI 가 "난이도 높은 문제" 앞에서 막히거나, 아예 풀지 못했습니다.

이 시험지를 통해 AI 들의 실력을 분석한 결과, 몇 가지 흥미로운 사실이 드러났습니다.

추론 능력 (Reasoning) 이 핵심: 단순히 코드를 많이 외운 AI(일반 코딩 모델) 보다는, **문제를 논리적으로 추론하는 훈련을 받은 AI(추론 모델)**가 훨씬 잘 풀었습니다. 하지만 그래도 최상위 난이도 문제는 여전히 어렵습니다.
언어의 차이 (파이썬 vs C++):
- 대부분의 AI 는 파이썬으로 코딩하는 것을 더 잘합니다.
- 하지만 **진짜 코딩 대회 (OJBench) 에서는 C++(CPP)**로 코딩했을 때 점수가 더 높았습니다.
- 이유: C++ 는 파이썬보다 속도가 훨씬 빠르고 효율적입니다. 어려운 문제를 풀 때는 "정답"뿐만 아니라 "시간 내에 해결하는 것"도 중요하기 때문입니다. 마치 달리기 대회에서 가벼운 신발 (C++) 을 신었을 때 더 잘 달리는 것과 같습니다.
실수 수정 능력 (Refinement):
- AI 가 처음에 틀린 코드를 짜면, 컴퓨터가 "에러 메시지"를 알려줍니다. AI 는 이 메시지를 보고 코드를 고칠 수 있습니다.
- 재미있는 점: AI 는 문법 오류 (컴파일 에러) 를 고치는 건 잘하지만, 알고리즘이 너무 느려서 시간 초과 (TLE) 가 나는 문제를 고치는 건 매우 어려워했습니다. 이는 AI 가 "더 효율적인 해결책"을 스스로 설계하는 데는 아직 한계가 있다는 뜻입니다.

이 논문은 **"AI 가 코딩을 잘한다고 해서, 모든 문제를 다 푼다는 뜻은 아니다"**라고 경고합니다.

현재 상황: AI 는 쉬운 문제나 중급 문제는 잘 풀지만, 진짜 어려운 경쟁 수준 (Competition Level) 의 문제에서는 여전히 인간 전문가들에게 밀립니다.
미래 방향: 앞으로 더 똑똑한 AI 를 만들려면, 단순히 코드를 많이 읽게 하는 것뿐만 아니라, 복잡한 문제를 논리적으로 추론하고, 효율적인 알고리즘을 설계하는 능력을 키워야 합니다.

"OJBench 는 AI 들에게 '코딩의 최강자'가 되기 위한 '최고난도 시험'을 치르게 한 것입니다. 결과는? 최신 AI 들도 고전했지만, 이 시험을 통해 AI 의 진짜 한계와 앞으로 발전해야 할 방향을 정확히 파악할 수 있게 되었습니다."

이처럼 OJBench 는 AI 의 코딩 실력을 가늠하는 새로운 **기준점 (Benchmark)**이 될 것입니다.

유사한 논문