Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

이 논문은 기하학적 문제 해결을 위한 보조 구성에 대한 휴리스틱 한계를 극복하고, 심볼릭 엔진과의 상호작용과 복잡도 증강 강화학습 (CBRL) 을 통해 알파지오메트리 2 보다 훨씬 적은 데이터로 올림피아드 금메달리스트 평균 점수를 상회하는 성능을 달성한 'InternGeometry' 에이전트를 제안합니다.

Haiteng Zhao, Junhao Shen, Yiming Zhang, Songyang Gao, Kuikun Liu, Tianyou Ma, Fan Zheng, Dahua Lin, Wenwei Zhang, Kai Chen

게시일 2026-03-06
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📐 "올림피아드 수학 영웅"을 만든 AI: 복잡한 기하학 문제를 해결하는 새로운 비법

이 논문은 인공지능 (AI) 이 국제 수학 올림피아드 (IMO) 수준의 매우 어려운 기하학 문제를 해결하는 데 어떻게 성공했는지 설명합니다. 기존에는 거대한 데이터와 복잡한 검색 기술에 의존하던 방식에서 벗어나, 인간처럼 생각하고 배우는 AI 에이전트를 개발한 획기적인 연구입니다.

이 내용을 누구나 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.


1. 기존 방식 vs. 새로운 방식: "거대한 도서관" vs. "현명한 탐정"

🔴 기존 방식 (AlphaGeometry 2 등): 거대한 도서관의 사서
기존의 최첨단 기하학 AI 들은 방대한 양의 문제와 해답을 외운 뒤, 문제를 풀 때 마치 거대한 도서관에서 모든 책을 뒤져보듯 무작위 검색을 했습니다.

  • 비유: 마치 시험을 보기 위해 수만 권의 참고서를 통째로 외우고, 시험장에 들어가서 "어? 이 문제랑 비슷한 게 어디 있지?" 하며 모든 책을 뒤지는 학생입니다.
  • 단점: 데이터가 너무 많아야 하고, 새로운 유형의 문제가 나오면 당황할 수 있습니다.

🟢 새로운 방식 (InternGeometry): 현명한 탐정
이 논문이 만든 InternGeometry는 단순히 지식을 외우는 것이 아니라, 문제를 풀면서 직접 추리하고 실험하는 탐정처럼 행동합니다.

  • 비유: 이 학생은 모든 책을 외우지 않습니다. 대신 문제를 보고 "어, 이 각도가 이상하네? 여기 선을 하나 더 그려보면 어떨까?"라고 생각 (Thinking) 합니다. 그리고 그 아이디어가 맞는지 검증 도구에 확인을 시킵니다. 틀리면 "아, 아니었구나" 하고 반성 (Reflection) 하며 다음 시도를 합니다.
  • 핵심: AI 가 스스로 보조선 (Auxiliary Construction) 을 그리는 아이디어를 내고, 그것이 맞는지 확인하며 문제를 풀어갑니다.

2. 핵심 기술 1: "기억력이 좋은 탐정" (동적 메모리)

기하학 문제는 한 번에 해결하기 어렵습니다. 수백 번의 시도와 실패를 거쳐야 정답에 도달하는 경우가 많습니다.

  • 문제: 보통 AI 는 대화 길이가 길어지면 "아까 뭐 했더라?" 하며 기억을 잃어버립니다 (기억 상실).
  • 해결책 (InternGeometry): 이 AI 는 동적 메모리를 사용합니다.
    • 비유: 탐정이 사건을 해결할 때, 수백 페이지의 수사 일지를 다 읽지 않고 핵심만 요약한 메모장을 들고 다닙니다. "어제 A 선을 그어봤는데 실패했고, B 선은 성공했어" 같은 핵심 정보만 간결하게 정리해 두는 것입니다.
    • 효과: 덕분에 AI 는 200 번이 넘는 시도와 실패를 거치면서도, 처음의 실수나 성공 요인을 잊지 않고 계속 나아갈 수 있습니다.

3. 핵심 기술 2: "점점 어려워지는 훈련" (복잡도 부스팅 강화학습)

이 AI 를 가르치는 방법은 매우 독특합니다. 바로 CBRL(복잡도 부스팅 강화학습) 입니다.

  • 기존 방식: 처음부터 어려운 문제를 풀게 하거나, 쉬운 문제만 반복하게 하면 AI 는 금방 지치거나 실력이 늘지 않습니다.
  • 새로운 방식 (CBRL):
    • 비유: 운동선수를 키울 때, 처음부터 마라톤을 뛰게 하지 않습니다.
      1. 초반: 쉬운 달리기부터 시작합니다.
      2. 중반: 달릴 수 있는 거리가 늘어나면, 조금 더 어려운 코스를 줍니다.
      3. 후반: AI 가 잘 풀면, 자동으로 더 어려운 문제를 만들어 내게 합니다.
    • 원리: AI 가 "너무 쉬워서 재미없다"거나 "너무 어려워서 포기하고 싶다"는 지점 사이, 즉 적당한 난이도에서 학습하도록 문제를 자동으로 조절합니다. 이 과정을 반복하며 AI 는 자연스럽게 올림피아드 영웅급 실력을 갖추게 됩니다.

🏆 놀라운 성과: 적은 데이터, 큰 성공

이 연구의 가장 놀라운 점은 효율성입니다.

  • 데이터 양: 기존 최고 성능 모델 (AlphaGeometry 2) 은 3 억 개의 데이터를 학습했습니다. 반면, InternGeometry 는 1 만 3 천 개의 데이터만 학습했습니다.
    • 비유: 기존 모델이 전 세계 도서관의 모든 책을 읽었다면, 이 모델은 가장 중요한 핵심 요약본 13 권만 읽어서 같은 수준의 실력을 낸 것입니다. (데이터 양은 0.004% 수준!)
  • 성적: 2000 년부터 2024 년까지의 국제 수학 올림피아드 기하학 문제 50 개 중 44 개를 해결했습니다. 이는 금메달리스트들의 평균 점수 (40.9 점) 를 뛰어넘는 성적입니다.
  • 창의성: 인간이 풀지 못했던 문제에서도, 인간이 생각지 못한 새로운 보조선을 그리는 창의적인 해법을 찾아내기도 했습니다.

💡 결론

이 논문은 "AI 가 단순히 많은 데이터를 외우는 것이 아니라, 스스로 생각하고, 실수에서 배우며, 점진적으로 성장하는 방식으로 학습하면, 인간 전문가도 따라오기 힘든 복잡한 문제를 해결할 수 있다"는 것을 증명했습니다.

마치 어린 탐정이 매일 조금씩 어려운 사건을 해결하며 성장해, 결국 세계 최고의 명탐정이 되는 이야기와 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →