LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

이 논문은 2011 년부터 2024 년까지의 ICPC 세계 대회 문제를 기반으로 GPT-4o, Mistral Large, Llama-3.1-405B, o1 시리즈 등 최신 대형 언어 모델들의 알고리즘 문제 해결 능력을 평가하는 새로운 프레임워크인 LLM-ProS 를 제안하고, 모델의 추론 능력, 정확도, 효율성 및 학습 방법론의 영향을 분석하여 알고리즘 작업 최적화를 위한 통찰을 제공합니다.

Md Sifat Hossain, Anika Tabassum, Md. Fahim Arefin, Tarannum Shaila Zaman

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 실험의 배경: "인공지능들의 '수능' 시험"

연구진들은 전 세계 대학생들이 치르는 가장 어려운 코딩 대회인 **ICPC(국제 대학생 프로그래밍 대회)**의 과거 문제 166 개를 모았습니다. 이 문제는 단순히 "코드 짜기"가 아니라, 복잡한 논리, 수학, 그리고 치밀한 알고리즘이 필요한 고난도 퍼즐입니다.

연구진은 이 문제들을 5 가지 최신 인공지능에게 내주었습니다.

  • 일반적인 천재들: GPT-4o, Mistral Large, Llama-3.1 (이들은 다양한 일을 잘하는 '만능' 모델들입니다.)
  • 논리 특화 천재들: o1-mini, o1-preview (이들은 문제를 풀 때 단계별로 깊이 생각해보는 훈련을 특별히 받은 모델들입니다.)

2. 실험 과정: "새로운 문제 vs 기억해둔 문제"

연구진은 두 가지 중요한 조건을 걸었습니다.

  • 조건 1 (기억력 테스트): 인공지능들이 훈련할 때 이미 봤을 법한 옛날 문제 (2011~2023 년) 를 냈습니다.
  • 조건 2 (실력 테스트): 인공지능들이 훈련할 때 아직 존재하지 않았던 최신 문제 (2024 년) 를 냈습니다. 이는 인공지능이 단순히 '암기'만 한 건지, 진짜 '이해'를 했는지를 가르는 핵심입니다.

그리고 인공지능들이 짠 코드를 실제 대회 시스템에 제출해서 **"정답 (Accepted)"**을 받았는지, **"오답 (Wrong Answer)"**이나 **"시간 초과 (Time Limit Exceeded)"**를 받았는지 확인했습니다.

3. 놀라운 결과: "생각하는 법을 배운 아이 vs 책만 외운 아이"

결과가 매우 극명하게 갈렸습니다.

  • 일반 모델들 (GPT-4o 등):

    • 비유: 이 모델들은 마치 방대한 양의 책을 읽었지만, 정작 새로운 문제를 만나면 당황하는 학생 같습니다.
    • 결과: 2024 년의 '새로운' 문제를 풀 때 **정답률이 0%**였습니다. 옛날 문제를 풀 때도 거의 실패했습니다. 그들은 문제의 논리를 깊이 생각하기보다, 훈련 데이터에 있던 패턴을 단순히 '따라하는' 데 그쳤습니다.
  • o1 시리즈 (o1-mini, o1-preview):

    • 비유: 이 모델들은 문제 풀기 전에 "잠시 멈추고, 단계별로 생각해보는 (Chain-of-Thought)" 훈련을 받은 천재 같습니다.
    • 결과: 새로운 2024 년 문제에서도 다른 모델들보다 훨씬 높은 정답률을 보였습니다. 특히 o1-mini는 약 15%, o1-preview는 약 7% 의 정답률을 기록하며 압도적인 1 위를 차지했습니다.
    • 핵심: 이들은 문제를 풀 때 "왜 이렇게 해야 하지?"라고 스스로에게 물어보며 논리를 검증하는 능력을 갖추고 있었습니다.

4. 주요 교훈: "무엇이 인공지능을 더 똑똑하게 만들까?"

이 실험을 통해 연구진은 세 가지 중요한 사실을 발견했습니다.

  1. 단순 암기는 통하지 않는다: 인공지능이 훈련 데이터에 있는 문제를 외워서 푼다면, 새로운 문제가 나오면 무너집니다. 진짜 실력은 새로운 상황에 적응하는 능력입니다.
  2. '생각하는 훈련'이 필수다: o1 모델들이 이길 수 있었던 비결은 **단계별로 논리적으로 추론하는 훈련 (Chain-of-Thought)**을 받았기 때문입니다. 이는 복잡한 문제를 작은 조각으로 나누어 해결하는 인간의 사고방식과 비슷합니다.
  3. 실제 시험이 필요하다: 인공지능의 실력을 평가할 때는 "이미 봤을 법한 문제"가 아니라, "처음 보는 새로운 문제"로 시험을 봐야 진짜 실력을 알 수 있습니다.

요약

이 논문은 **"인공지능이 코딩 대회를 치르면, 단순히 많은 데이터를 읽은 모델보다는 '논리적으로 생각하는 법'을 훈련받은 모델이 훨씬 잘한다"**는 것을 증명했습니다.

마치 시험지를 놓고 비교했을 때, 책만 많이 읽은 학생은 새로운 문제를 만나면 당황하지만, 문제 해결 전략을 훈련받은 학생은 어떤 문제든 차근차근 풀어나가는 것과 같은 이치입니다. 앞으로 더 똑똑한 인공지능을 만들려면, 단순히 많은 책을 읽게 하는 것보다 깊이 있게 생각하게 하는 훈련이 중요하다는 메시지를 전달합니다.