Each language version is independently generated for its own context, not a direct translation.

📐 "올림피아드 수학 영웅"을 만든 AI: 복잡한 기하학 문제를 해결하는 새로운 비법

이 논문은 인공지능 (AI) 이 국제 수학 올림피아드 (IMO) 수준의 매우 어려운 기하학 문제를 해결하는 데 어떻게 성공했는지 설명합니다. 기존에는 거대한 데이터와 복잡한 검색 기술에 의존하던 방식에서 벗어나, 인간처럼 생각하고 배우는 AI 에이전트를 개발한 획기적인 연구입니다.

이 내용을 누구나 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드리겠습니다.

1. 기존 방식 vs. 새로운 방식: "거대한 도서관" vs. "현명한 탐정"

🔴 기존 방식 (AlphaGeometry 2 등): 거대한 도서관의 사서
기존의 최첨단 기하학 AI 들은 방대한 양의 문제와 해답을 외운 뒤, 문제를 풀 때 마치 거대한 도서관에서 모든 책을 뒤져보듯 무작위 검색을 했습니다.

비유: 마치 시험을 보기 위해 수만 권의 참고서를 통째로 외우고, 시험장에 들어가서 "어? 이 문제랑 비슷한 게 어디 있지?" 하며 모든 책을 뒤지는 학생입니다.
단점: 데이터가 너무 많아야 하고, 새로운 유형의 문제가 나오면 당황할 수 있습니다.

🟢 새로운 방식 (InternGeometry): 현명한 탐정
이 논문이 만든 InternGeometry는 단순히 지식을 외우는 것이 아니라, 문제를 풀면서 직접 추리하고 실험하는 탐정처럼 행동합니다.

비유: 이 학생은 모든 책을 외우지 않습니다. 대신 문제를 보고 "어, 이 각도가 이상하네? 여기 선을 하나 더 그려보면 어떨까?"라고 생각 (Thinking) 합니다. 그리고 그 아이디어가 맞는지 검증 도구에 확인을 시킵니다. 틀리면 "아, 아니었구나" 하고 반성 (Reflection) 하며 다음 시도를 합니다.
핵심: AI 가 스스로 보조선 (Auxiliary Construction) 을 그리는 아이디어를 내고, 그것이 맞는지 확인하며 문제를 풀어갑니다.

2. 핵심 기술 1: "기억력이 좋은 탐정" (동적 메모리)

기하학 문제는 한 번에 해결하기 어렵습니다. 수백 번의 시도와 실패를 거쳐야 정답에 도달하는 경우가 많습니다.

문제: 보통 AI 는 대화 길이가 길어지면 "아까 뭐 했더라?" 하며 기억을 잃어버립니다 (기억 상실).
해결책 (InternGeometry): 이 AI 는 동적 메모리를 사용합니다.
- 비유: 탐정이 사건을 해결할 때, 수백 페이지의 수사 일지를 다 읽지 않고 핵심만 요약한 메모장을 들고 다닙니다. "어제 A 선을 그어봤는데 실패했고, B 선은 성공했어" 같은 핵심 정보만 간결하게 정리해 두는 것입니다.
- 효과: 덕분에 AI 는 200 번이 넘는 시도와 실패를 거치면서도, 처음의 실수나 성공 요인을 잊지 않고 계속 나아갈 수 있습니다.

3. 핵심 기술 2: "점점 어려워지는 훈련" (복잡도 부스팅 강화학습)

이 AI 를 가르치는 방법은 매우 독특합니다. 바로 CBRL(복잡도 부스팅 강화학습) 입니다.

기존 방식: 처음부터 어려운 문제를 풀게 하거나, 쉬운 문제만 반복하게 하면 AI 는 금방 지치거나 실력이 늘지 않습니다.
새로운 방식 (CBRL):
- 비유: 운동선수를 키울 때, 처음부터 마라톤을 뛰게 하지 않습니다.
  1. 초반: 쉬운 달리기부터 시작합니다.
  2. 중반: 달릴 수 있는 거리가 늘어나면, 조금 더 어려운 코스를 줍니다.
  3. 후반: AI 가 잘 풀면, 자동으로 더 어려운 문제를 만들어 내게 합니다.
- 원리: AI 가 "너무 쉬워서 재미없다"거나 "너무 어려워서 포기하고 싶다"는 지점 사이, 즉 적당한 난이도에서 학습하도록 문제를 자동으로 조절합니다. 이 과정을 반복하며 AI 는 자연스럽게 올림피아드 영웅급 실력을 갖추게 됩니다.

🏆 놀라운 성과: 적은 데이터, 큰 성공

이 연구의 가장 놀라운 점은 효율성입니다.

데이터 양: 기존 최고 성능 모델 (AlphaGeometry 2) 은 3 억 개의 데이터를 학습했습니다. 반면, InternGeometry 는 1 만 3 천 개의 데이터만 학습했습니다.
- 비유: 기존 모델이 전 세계 도서관의 모든 책을 읽었다면, 이 모델은 가장 중요한 핵심 요약본 13 권만 읽어서 같은 수준의 실력을 낸 것입니다. (데이터 양은 0.004% 수준!)
성적: 2000 년부터 2024 년까지의 국제 수학 올림피아드 기하학 문제 50 개 중 44 개를 해결했습니다. 이는 금메달리스트들의 평균 점수 (40.9 점) 를 뛰어넘는 성적입니다.
창의성: 인간이 풀지 못했던 문제에서도, 인간이 생각지 못한 새로운 보조선을 그리는 창의적인 해법을 찾아내기도 했습니다.

💡 결론

이 논문은 "AI 가 단순히 많은 데이터를 외우는 것이 아니라, 스스로 생각하고, 실수에서 배우며, 점진적으로 성장하는 방식으로 학습하면, 인간 전문가도 따라오기 힘든 복잡한 문제를 해결할 수 있다"는 것을 증명했습니다.

마치 어린 탐정이 매일 조금씩 어려운 사건을 해결하며 성장해, 결국 세계 최고의 명탐정이 되는 이야기와 같습니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 논문은 국제 수학 올림피아드 (IMO) 수준의 기하학 문제를 해결할 수 있는 첫 번째 메달리스트 수준의 대규모 언어 모델 (LLM) 에이전트인 InternGeometry를 제안합니다. 기존 기하학 문제 해결 시스템이 방대한 데이터 합성과 검색에 의존하는 전문가 모델 (예: AlphaGeometry 2) 에 의해 지배되었던 반면, InternGeometry 는 **복잡도 증폭 강화 학습 (Complexity-Boosting Reinforcement Learning, CBRL)**과 동적 메모리 메커니즘을 통해 적은 데이터로도 높은 성능을 달성하고 창의적인 보조선을 도출할 수 있음을 증명했습니다.

1. 문제 정의 (Problem)

기하학 문제 해결의 한계: LLM 에이전트는 수학 및 프로그래밍 분야에서 강력한 능력을 보이지만, 기하학 문제, 특히 IMO 수준의 문제에서는 여전히 약점을 보입니다.
주요 난제: IMO 기하학 문제는 단순한 정리의 적용을 넘어 **창의적인 보조선 (Auxiliary Constructions)**이 필요하며, 이에 대한 휴리스틱 (heuristic) 이 약해 여러 번의 시도가 필요합니다.
기존 접근법의 비효율성: 현재 최첨단 모델 (AlphaGeometry 2 등) 은 대규모로 합성된 데이터와 심층 검색 (Search) 에 의존하여 훈련 및 평가가 이루어집니다. 이는 데이터 효율성이 낮고 일반화 능력이 제한적일 수 있습니다.
연구 질문: LLM 에이전트를 활용하여 기하학 문제를 더 높은 효율성과 일반화 능력으로 해결할 수 있는가?

2. 방법론 (Methodology)

가. InternGeometry 에이전트 아키텍처

상호작용형 증명 엔진 (InternGeometry-DDAR): 오픈소스 DDAR(Newclid) 을 기반으로 확장된 엔진을 사용합니다. 이는 기하학적 구조를 정의하고, 보조점/보조선을 추가하며, 명제를 검증할 수 있는 상호작용 환경을 제공합니다.
장기적 상호작용 (Long-Horizon Interaction): 에이전트는 각 단계에서 자연어로 사고 (Think) 하고, 도메인 특화 언어 (DSL) 로 행동 (Action) 을 수행하며, 엔진의 피드백을 받습니다.
동적 메모리 (Dynamic Memory): 200 회 이상의 상호작용을 처리하기 위해, 긴 대화 기록을 압축하여 핵심 행동과 결과만 유지하는 메모리 관리 모듈을 도입했습니다. 이는 문맥 효율성을 높이고 미래 탐색을 안내합니다.
반복적 제안 및 검증: 에이전트는 보조선 제안, 명제 증명 시도, 엔진 피드백에 따른 반성 (Reflection) 을 반복하며 해를 찾습니다.

나. 복잡도 증폭 강화 학습 (CBRL)

냉간 시작 (Cold Start): 7,000 개의 공식화된 기하학 문제 및 궤적 데이터로 감독 미세 조정 (SFT) 을 수행하여 에이전트의 기본 행동을 학습시킵니다.
커리큘럼 학습 (Curriculum Learning):
- 데이터 합성: 증폭된 난이도 (Proof Steps 수, $\kappa$ ) 를 가진 기하학 문제를 동적으로 생성합니다.
- 적응형 난이도 조절: 에이전트의 학습 성과 (보상) 에 따라 다음 학습 단계의 문제 난이도를 조절합니다.
- 최적화 목표: 평균 절대 이득 (Average Absolute Advantage) 을 최대화하는 난이도 (약 0.5 의 성공 확률) 를 유지하도록 $\kappa$ 를 업데이트합니다. 이는 너무 쉽거나 어려운 문제를 피하고 학습 효율을 극대화합니다.

다. 보상 설계

이진 보상 (Binary Reward):
- 결과 보상 ( $r_o$ ): 문제가 완전히 증명되면 1, 아니면 0.
- 단계 유효성 보상 ( $r_s$ ): 제안된 명제가 증명되거나 보조선이 성공적으로 추가되고 최종 증명에 활용되면 1.
단순한 규칙 기반 보상을 사용하여 효율적인 학습을 유도합니다.

3. 주요 기여 (Key Contributions)

메달리스트 수준 LLM 에이전트: InternGeometry 는 2000 년부터 2024 년까지의 IMO 기하학 문제 50 개 중 44 개를 해결하여, 금메달리스트의 평균 점수 (40.9 점) 를 상회하고 AlphaGeometry 2(42 점) 및 SeedGeometry(43 점) 와 경쟁하거나 능가하는 성능을 달성했습니다.
압도적인 데이터 효율성: AlphaGeometry 2 가 사용한 데이터의 **0.004%(약 13,000 개)**에 불과한 소량의 데이터로 훈련되었습니다. 이는 LLM 에이전트의 데이터 효율성과 일반화 능력을 입증합니다.
창의적 보조선 도출: 인간이 사용하지 않은 새로운 보조선 구성을 제안하여 (예: IMO 2018 P6), 에이전트가 단순한 패턴 매칭을 넘어 창의적인 기하학적 추론이 가능함을 보였습니다.
CBRL 프레임워크: 강화 학습에서 난이도 조절을 자동화하여 학습 수렴 속도와 일반화 성능을 동시에 개선하는 새로운 커리큘럼 학습 방법을 제시했습니다.

4. 실험 결과 (Results)

성능 비교 (IMO 50):
- InternGeometry: 44/50 해결 (Pass@256).
- AlphaGeometry 2: 42/50 해결.
- SeedGeometry: 43/50 해결.
- 2025 년 IMO 문제: 2025 년 기하학 문제도 해결했습니다.
데이터 효율성:
- InternGeometry: 13K 데이터 (AlphaGeometry 2 대비 0.004%).
- 추론 비용 (Inference Cost): AlphaGeometry 2 의 복잡한 검색 트리 (Beam Search) 에 비해 상대적으로 적은 탐색 비용으로 높은 성능을 달성했습니다.
초기화 및 구성 요소 분석 (Ablation Study):
- 장기적 상호작용의 중요성: 단계 수를 제한하거나 (64 단계), 보조선 제안 없이 보조선 추가만 허용할 경우 성능이 급격히 하락하여, 긴 탐색 과정 (Long-horizon) 이 필수적임을 확인했습니다.
- CBRL 의 효과: 고정된 난이도 데이터나 쉬운 데이터만 사용할 경우 일반화 성능이 떨어지며, CBRL 을 적용했을 때만 최적의 성능을 발휘했습니다.

5. 의의 및 결론 (Significance)

패러다임의 전환: 기하학 문제 해결이 '대규모 데이터 + 검색'에 의존하는 전문가 모델 중심에서, 적은 데이터로 학습된 LLM 에이전트의 상호작용 및 추론 능력으로 패러다임이 이동할 수 있음을 시사합니다.
휴리스틱의 극복: 약한 휴리스틱을 가진 기하학 문제에서, 에이전트가 동적 메모리와 장기적 추론을 통해 인간 전문가와 유사한 탐색 전략을 학습할 수 있음을 입증했습니다.
미래 전망: 이 연구는 수학, 과학 등 복잡한 추론이 필요한 분야에서 LLM 에이전트가 전문가 수준에 도달할 수 있는 가능성을 보여주며, 효율적인 강화 학습 커리큘럼 설계의 중요성을 강조합니다.

요약하자면, InternGeometry 는 복잡한 기하학 문제를 해결하기 위해 LLM 의 추론 능력, 도구 상호작용, 그리고 적응형 강화 학습을 결합하여, 소량의 데이터로도 최상위 수준의 문제 해결 능력을 달성한 획기적인 모델입니다.

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning