How RL Unlocks the Aha Moment in Geometric Interleaved Reasoning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"복잡한 기하학 문제를 풀 때, 그림을 그리면서 생각하면 더 잘 풀 수 있을까?"**라는 질문에 대한 놀라운 발견과 해결책을 담고 있습니다.

간단히 말해, **"그림을 그리는 행위가 단순히 장식이 아니라, 문제를 푸는 핵심 도구"**가 되도록 인공지능 (AI) 을 훈련시키는 방법을 제안했습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: "그림을 그리라고 시켰는데, 왜 더 못 풀까?" (SFT 의 실패)

과거의 AI 훈련 방식 (SFT) 은 마치 **"수학 선생님의 노트를 그대로 베끼는 학생"**과 같았습니다.
선생님이 "그림을 그리고, 그 다음에 풀이 과정을 써라"라고 적어둔 답안을 보고 AI 는 그 형식만 따라 했습니다.

상황: AI 는 "그림을 그려야겠다"라고 생각하고 코드를 실행해 그림을 그립니다.
문제: 하지만 AI 는 왜 그 그림을 그렸는지, 그 그림이 어떻게 답을 찾는지 그 연결고리를 이해하지 못했습니다.
결과: 그림은 그려졌지만, 그 그림은 문제와 무관한 '장식'에 불과했습니다. 오히려 AI 는 그림을 그리는 데 에너지를 써서 논리 추론이 흐트러져, 그림을 안 그릴 때보다 오히려 정답률이 떨어지는 이상한 현상이 발생했습니다.

비유: 요리사가 레시피를 따라 "소스를 넣고, 그릇에 담고, 그다음에 맛을 본다"는 순서를 외웠는데, 정작 소스를 넣는 이유나 그릇에 담는 의미를 모르고 기계적으로만 행동하는 것과 같습니다. 결과는 맛이 없는 요리가 됩니다.

2. 해결책: "그림을 그리는 순간, '아하!' 순간을 경험하게 하다" (Faire 와 RL)

연구팀은 이 문제를 해결하기 위해 **강화학습 (RL)**이라는 새로운 훈련 방식을 도입했습니다. 이를 **'Faire'**라고 이름 붙였는데, 핵심은 **"기능적 정렬 (Functional Alignment)"**입니다.

AI 가 그림을 그릴 때, 단순히 "그림이 예쁘게 나오게" 하는 게 아니라 **"그림이 논리를 증명하는 데 실제로 쓰이는가?"**를 검증하는 시스템을 도입했습니다.

이 시스템은 그림을 그릴 때 세 가지 심판 (검증자) 을 두었습니다:

수학 심판 (Geometric): "그림이 수학적으로 옳은가? (예: 삼각형이 실제로 삼각형인가?)"
시각 심판 (Perceptual): "그림이 사람이 보기엔 명확한가? (예: 글자가 겹치지 않았는가?)"
의미 심판 (Semantic): "그림이 지금 논리 단계와 일치하는가? (예: '삼각형 ABC'를 그렸는데, 논리에서는 '원'을 말하고 있지는 않은가?)"

비유: 이제 AI 는 단순히 레시피를 외우는 게 아니라, 요리 실습을 하는 요리사가 되었습니다.

소스를 넣을 때마다 "이 소스가 요리에 필요한가?" (수학 심판)

"소스가 너무 많아서 맛이 망가지진 않았나?" (시각 심판)

"지금 '매운맛'을 내는 단계인데, 왜 '달콤한' 소스를 넣지?" (의미 심판)

이렇게 **실제 결과 (맛)**를 기준으로 피드백을 받으며, AI 는 "아하! 그림을 그리는 건 장식이 아니라, 내 논리를 검증하는 필수 도구구나!"라는 깨달음 (Aha Moment) 을 얻게 됩니다.

3. 결과: "그림이 논리를 지탱하는 기둥이 되다"

이 새로운 방식으로 훈련된 AI (Faire) 는 놀라운 변화를 보였습니다.

SFT (옛 방식): 그림을 그리는 행위가 오히려 방해가 되어 정답률이 떨어졌습니다.
Faire (새 방식): 그림을 그리는 행위가 논리를 뒷받침하는 튼튼한 기둥이 되었습니다. AI 는 그림을 그리면서 "이 그림을 보니 답이 이렇구나!"라고 추론하게 되었고, 정답률이 크게 향상되었습니다.

특히, 거대한 AI 모델들 (GPT-5, Gemini 등) 이 아무리 똑똑해도 그림과 논리의 연결고리를 못 찾으면 실패하는 반면, 이 방법으로 훈련된 작은 모델이 그림을 통해 논리를 검증하는 능력에서 압도적인 성과를 냈습니다.

4. 요약: 왜 이것이 중요한가?

이 논문은 AI 에게 **"그림을 그리는 것"을 단순히 시각적 작업이 아니라, "생각하는 과정의 일부"**로 만들었습니다.

과거: AI 는 그림을 그릴 때 "그냥 그려야 하니까 그리는 거야"라고 생각했습니다. (형식만 따름)
현재: AI 는 "이 그림을 그려야 다음 논리 단계가 가능해지니까 그리는 거야"라고 생각합니다. (기능적 이해)

마치 건축가가 설계도를 그릴 때, 단순히 종이에 선을 그리는 게 아니라 **"이 선이 건물의 무게를 지탱할 수 있는가?"**를 계산하며 그리는 것과 같습니다.

이 연구는 AI 가 복잡한 문제를 풀 때, 시각적 도구 (그림) 와 논리적 추론이 서로를 지탱하며 '아하!' 순간을 만들어낼 수 있다는 것을 증명했습니다. 이는 수학뿐만 아니라, 복잡한 문제를 해결해야 하는 모든 분야에서 AI 의 능력을 한 단계 업그레이드할 수 있는 중요한 통찰입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

기하학적 추론의 본질: 복잡한 기하학 문제를 해결하는 것은 단순한 텍스트 추론이 아니라, 논리적 유추와 시각적 도면 (다이어그램) 구축이 교차하는 인터리브드 추론 (Interleaved Reasoning) 을 요구합니다. 여기서 도면은 단순한 예시가 아니라, 작업 기억을 외부화하고 공간적 제약을 명시화하여 추론 경로를 이끄는 필수적인 인지적 발판 (scaffold) 역할을 합니다.
SFT 의 역설 (The SFT Paradox): 최근 멀티모달 대형 언어 모델 (MLLM) 은 시각 생성 능력이 뛰어나지만, 저자들은 지도 미세 조정 (Supervised Fine-Tuning, SFT) 을 인터리브된 '문제 - 도면 - 해답' 데이터에 적용했을 때, 오히려 텍스트 전용 베이스라인보다 추론 성능이 심각하게 저하되는 현상을 발견했습니다.
실패 원인: SFT 는 데이터 분포에 대한 분산 정렬 (Distributional Alignment) 을 유도하여 모델이 인터리브된 형식 (언어와 코드의 교차) 을 표면적으로 모방하게 하지만, 생성된 도면과 추론 단계 간의 인과적 의존성 (Causal Dependency) 을 내재화하지 못하게 합니다. 결과적으로 모델은 도면 생성을 논리적 추론에 필수적인 과정이 아닌, 잡음 (noise) 이나 장식적인 절차로 취급하게 되어 추론 과정이 분열됩니다.

2. 제안 방법론: Faire (Methodology)

저자들은 분산 정렬을 넘어 기능적 정렬 (Functional Alignment) 을 달성하기 위해 Faire (Functional alignment for interleaved reasoning) 라는 강화 학습 (RL) 기반 프레임워크를 제안합니다.

2.1. 핵심 개념: 기능적 정렬

모델이 도면을 생성할 때, 그것이 단순히 "보이는 것"이 아니라 추론의 다음 단계를 검증 가능하게 지지하는 인과적 매개체 (Causal Mediator) 가 되어야 합니다. 이를 위해 모델은 텍스트 전제 ( $T$ ) 와 최종 답 ( $Y$ ) 사이의 정보 다리 역할을 하는 도면 ( $V$ ) 을 생성해야 합니다.

2.2. 삼각 검증 시스템 (Tri-perspective Verifier)

Faire 는 생성된 도면이 기능적으로 유효한지 확인하기 위해 세 가지 독립적인 검증자를 도입하여 보상 (Reward) 을 설계합니다:

기하학적 일관성 (Geometric Consistency, $C_{geo}$ ): 생성된 GeoGebra 코드가 실행 가능하고, 문제의 공리 및 제약 조건을 위반하지 않는지 객관적 검증자 (Objective Verifier) 를 통해 확인합니다.
지각적 허용성 (Perceptual Admissibility, $C_{perc}$ ): 생성된 이미지가 시각적으로 명확하고 해석 가능한지 (가려짐, 레이블 겹침 등 없음) 를 주관적 검증자 (Subjective VLM-Judge) 를 통해 확인합니다.
의미론적 정렬 (Semantic Alignment, $C_{sem}$ ): 생성된 도면이 현재 텍스트 추론 단계의 의도 (예: 보조선 추가, 특정 점의 좌표 계산) 와 논리적으로 일치하는지 의미 검증자 (Semantic Verifier) 를 통해 확인합니다.

2.3. 최적화 과정

GRPO (Group Relative Policy Optimization): SFT 로 초기화된 모델을 기반으로, 위 세 가지 검증 신호를 통합한 보상 함수를 사용하여 GRPO 를 적용합니다.
보상 함수: 정답 정확도 ( $Y=Y^*$ ) 에 가중치를 두되, 세 가지 검증 조건 ( $C_{geo}, C_{perc}, C_{sem}$ ) 을 만족하는 경우 보상을 크게 부여하여, 모델이 도면 생성을 추론의 필수 단계로 내재화하도록 유도합니다.

3. 주요 기여 (Key Contributions)

SFT 의 한계 규명 및 RL 의 필요성 입증: 인터리브드 추론 데이터에 대한 단순 SFT 는 오히려 성능을 저하시킨다는 역설을 실험적으로 증명하고, 이를 해결하기 위해 RL 기반의 기능적 정렬이 필수적임을 보였습니다.
Faire 프레임워크 개발: 기하학적 도면 생성의 유효성을 보장하는 삼각 검증 시스템과 이를 RL 보상에 통합한 새로운 학습 프레임워크를 제안했습니다.
새로운 벤치마크 Faire-Bench 구축: 7,989 개의 K-12 수학 문제와 실행 가능한 GeoGebra 스크립트, 그리고 엄격한 3 단계 검증 필터를 통과한 고품질 인터리브드 추론 데이터셋을 공개했습니다.
'아하 순간 (Aha Moment)'의 정량화: RL 학습 후 모델의 행동 변화 (엔트로피 이동) 를 분석하여, 도면 생성이 고정된 패턴의 모방에서 적극적인 계산 및 검증 도구로 전환되는 과정을 포착했습니다.

4. 실험 결과 (Results)

성능 향상: Faire 는 다양한 벤치마크 (GGBench, Faire-Bench) 에서 기존 최상위 상용 모델 (GPT-4o, GPT-5, Gemini-2.5-Pro 등) 및 오픈 소스 모델 (Qwen, InternVL 등) 을 압도했습니다. 특히 기능적 정렬 점수 (Functional Alignment Score) 에서 Faire 는 45.37 을 기록하여 차기 모델들 (약 20 미만) 보다 월등히 높았습니다.
정확도 vs. 검증 가능성: 기존 모델들은 정답률은 높을지라도 생성된 도면이 추론을 지지하지 못하거나 (형식적 모방), 도면이 논리와 불일치하는 경우가 많았습니다. 반면 Faire 는 정답률 (74.82%) 과 함께 도면의 실행 가능성 및 논리적 일관성을 동시에 확보했습니다.
엔트로피 분석 (Aha Moment): RL 학습 후 모델은 시각적 도면 토큰, 수치 계산 토큰, 코드 토큰에서 엔트로피가 크게 증가했습니다. 이는 모델이 고정된 템플릿을 따르는 대신, 검증 피드백에 기반하여 의도적으로 계산하고 검증하는 과정을 학습했음을 의미합니다.
SFT vs. RL 비교: SFT 기반 인터리브드 학습은 텍스트 전용 학습보다 성능이 떨어졌으나, Faire (RL) 를 적용한 후 인터리브드 학습이 텍스트 전용 학습보다 성능이 크게 향상되는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

추론의 패러다임 전환: 이 연구는 멀티모달 모델이 단순히 텍스트와 이미지를 병렬로 처리하는 것을 넘어, 실행 가능한 도구 (도면/코드) 를 추론 과정의 필수적인 중간 상태 (Intermediate State) 로 활용해야 함을 보여줍니다.
검증 가능한 추론 (Verifiable Reasoning): 생성된 도면이 추론의 결과를 검증할 수 있는 객관적 근거가 되어야 함을 강조하며, AI 의 신뢰성과 해석 가능성을 높이는 방향을 제시합니다.
규모보다 정렬의 중요성: Faire 는 8B(80 억 파라미터) 모델임에도 불구하고, 수십 배 큰 상용 모델들보다 기하학적 인터리브드 추론에서 더 뛰어난 성능을 보였습니다. 이는 모델의 규모 (Scale) 보다 기능적 정렬 (Functional Alignment) 을 위한 학습 목표와 검증 메커니즘이 더 중요함을 시사합니다.

요약하자면, 이 논문은 강화 학습 (RL) 을 통해 모델이 도면 생성을 단순한 형식적 모방이 아닌, 논리적 추론을 지탱하는 기능적 도구로 내재화하게 함으로써 기하학적 문제 해결의 '아하 순간'을 달성할 수 있음을 증명했습니다.

How RL Unlocks the Aha Moment in Geometric Interleaved Reasoning

1. 문제: "그림을 그리라고 시켰는데, 왜 더 못 풀까?" (SFT 의 실패)

2. 해결책: "그림을 그리는 순간, '아하!' 순간을 경험하게 하다" (Faire 와 RL)

3. 결과: "그림이 논리를 지탱하는 기둥이 되다"

4. 요약: 왜 이것이 중요한가?

1. 연구 배경 및 문제 제기 (Problem)

2. 제안 방법론: Faire (Methodology)

2.1. 핵심 개념: 기능적 정렬

2.2. 삼각 검증 시스템 (Tri-perspective Verifier)

2.3. 최적화 과정

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Enhancing Safety of Large Language Models via Embedding Space Separation

RedacBench: Can AI Erase Your Secrets?

Children's Intelligence Tests Pose Challenges for MLLMs? KidGym: A 2D Grid-Based Reasoning Benchmark for MLLMs

CRoCoDiL: Continuous and Robust Conditioned Diffusion for Language

Fast-Slow Thinking RM: Efficient Integration of Scalar and Generative Reward Models