Each language version is independently generated for its own context, not a direct translation.
1. 문제 정의 (Problem Definition)
배경 및 한계:
다중 모드 대규모 언어 모델 (MLLM) 은 일반적인 수학 추론에서 뛰어난 성과를 보이지만, 기하학적 추론 (Geometric Reasoning) 분야에서는 여전히 큰 어려움을 겪고 있습니다. 특히 복잡한 기하학 문제를 해결할 때는 주어진 도형에 없는 보조 구성 (Auxiliary Constructions, 예: 보조선, 새로운 점, 회전 등) 을 논리적으로 도입해야만 정리를 적용할 수 있습니다.
기존 접근법의 문제점:
기존의 보조 구성을 다루는 방법들은 다음과 같은 근본적인 한계가 있었습니다.
- 텍스트 기반 추론: 복잡한 공간 관계를 텍스트로만 표현하려다 보니, 추론 과정에서 기하학적 배치에 대한 환각 (Hallucination) 이 발생하거나 공간적 관계를 왜곡합니다.
- 명시적 시각 생성 (Explicit Visual Generation): 중간 단계의 스케치를 픽셀 단위로 렌더링하는 방식은 계산 비용이 크고, 이산적인 심볼과 연속적인 기하 구조 간의 표현 불일치 (Representation Mismatch) 를 초래하며 정밀도가 낮습니다.
- 외부 도구 의존 (Tool-augmented Execution): 외부의 규칙 기반 실행 도구를 사용하는 방식은 정밀한 계산을 가능하게 하지만, 암묵적인 기하학적 제약 조건이 있는 경우 실패하며, 모델의 End-to-End 최적화를 방해합니다.
핵심 문제:
기하학적 보조 구성을 픽셀 렌더링이나 외부 도구 없이, 모델 내부에서 연속적인 잠재 공간 (Latent Space) 에서 학습하고 내재화하여, 복잡한 공간 관계를 정확하게 표현하고 추론하는 방법을 찾는 것입니다.
2. 방법론 (Methodology)
저자들은 LatentGeo라는 새로운 프레임워크를 제안합니다. 이는 명시적인 이미지 생성 대신 학습 가능한 연속적인 잠재 토큰 (Learnable Continuous Latent Tokens) 을 사용하여 보조 구성을 내재화합니다.
2.1 잠재 계획 및 추론 구조 (Latent Planning Framework)
추론 과정을 세 단계로 분해하여 모델링합니다:
- 상징적 계획 (Symbolic Planning): 문제 해결을 위한 기하학적 계획 (Tplan) 을 텍스트로 생성합니다.
- 잠재 구성 (Latent Construction): 계획에 따라 보조 도형의 시각적 정보를 잠재 토큰 시퀀스 (Z) 로 생성합니다. 이는 픽셀이 아닌 고차원 벡터 공간에서 이루어집니다.
- 최종 추론 (Final Reasoning): 계획과 잠재 구성 정보를 바탕으로 최종 답안 (A) 을 도출합니다.
2.2 잠재 시각적 사고 메커니즘 (Latent Visual Thinking Mechanism)
- 잠재 토큰: 모델 어휘에
<|latent_start|>, <|latent_end|> 등의 특수 토큰을 추가하여 보조 구성 구간을 표시합니다.
- 정렬 (Alignment): 학습 시, 정답 보조 도형 (Iaux) 을 비주얼 인코더 (ViT) 와 프로젝터 (Φ) 를 통해 잠재 공간의 타겟 표현 (Htarget) 으로 변환합니다.
- 손실 함수: 모델이 생성한 잠재 토큰의 숨겨진 상태 (Hgen) 와 Htarget 사이의 코사인 유사도와 MSE를 결합한 하이브리드 정렬 손실 (Lalign) 을 사용하여, 모델이 보조선의 기하학적 구조를 정확히 학습하도록 유도합니다.
2.3 3 단계 커리큘럼 학습 전략 (Three-Stage Curriculum Learning)
모델이 테스트 시 정답 보조 도형 없이도 스스로 보조 구성을 할 수 있도록 3 단계로 점진적으로 학습시킵니다.
- Stage 1 (시각 - 잠재 정렬): 텍스트, 이미지, 그리고 정답 보조 도형 (Iaux) 을 모두 사용하여 잠재 토큰과 시각적 구조를 강하게 정렬합니다.
- Stage 2 (계획 유도 내재화): 입력 이미지를 제거하고 계획 (Tplan) 만으로 잠재 구성을 생성하도록 학습합니다. 텍스트 기반의 잠재 표현이 시각적 원시 데이터와 얼마나 잘 일치하는지 대조 학습 (Consistency Loss) 을 통해 강화합니다.
- Stage 3 (End-to-End 추론): 모든 보조 시각적 감독 (Ground-truth Iaux) 을 제거합니다. 모델은 계획, 잠재 토큰, 답안을 하나의 시퀀스로 생성하며, 오직 최종 답안에 대한 크로스 엔트로피 손실만 사용합니다. 이를 통해 모델이 완전히 자율적으로 보조 구성을 수행하도록 만듭니다.
2.4 LaGDPO: 잠재 인식 그룹 분해 정책 최적화 (Latent-aware Group Decoupled Policy Optimization)
강화 학습 (RL) 단계를 도입하여 최종 답의 정확성과 잠재 구성의 안정성을 동시에 최적화합니다.
- 보상 설계: 정답 정확도, 형식 준수, 잠재 구성의 유무 (단일 구간 생성), 길이 패널티, 반복 패널티 등을 종합한 보상 함수를 설계합니다.
- 그룹 분해 추정 (Group-Decoupled Estimation): 여러 보상 신호 간의 불균형으로 인한 학습 불안정을 해결하기 위해, 동일한 프롬프트에서 생성된 여러 샘플 내에서 각 보상 성분을 정규화 (Normalization) 한 후 집계합니다.
- 잠재 인식 디코딩 안정화: RL 탐색 중 모델이 잠재 토큰을 생성하지 않고 텍스트만 생성하는 '붕괴 (Degradation)' 현상을 방지하기 위해, 잠재 토큰 시작/종료 토큰에 동적으로 적용되는 로그its 편향 (Logit Bias) 을 도입합니다. 학습이 진행됨에 따라 이 편향이 자동으로 감소하도록 설계했습니다.
3. 주요 기여 (Key Contributions)
- LatentGeo 프레임워크: 픽셀 렌더링이나 외부 도구의 의존 없이, 학습 가능한 연속 잠재 토큰을 통해 기하학적 보조 구성을 내재화하는 새로운 추론 패러다임을 제시했습니다.
- 커리큘럼 내재화 전략: 시각적 감독에서 시작하여 텍스트 기반 계획으로, 최종적으로는 완전 자율 추론으로 이어지는 3 단계 SFT 전략을 설계하여 모델이 보조 구성 능력을 스스로 습득하도록 했습니다.
- LaGDPO 알고리즘: 잠재 시각적 추론의 안정성을 유지하면서 최종 작업의 정확도를 극대화하는 잠재 인식 강화 학습 (RL) 절차를 제안했습니다. 이는 기존 RL 방법이 다중 모드 구성 작업에서 겪는 불안정성을 해결합니다.
- GeoAux 벤치마크: 보조 구성이 필수적인 복잡하고 시각적으로 기반한 기하학 문제를 평가하기 위해 GeoAux라는 새로운 벤치마크를 구축했습니다. 이는 기존 벤치마크가 놓치고 있던 '구성 중심 (Construction-centric)' 능력을 체계적으로 평가합니다.
4. 실험 결과 (Results)
- GeoAux 벤치마크: LatentGeo 는 7B 파라미터 모델임에도 불구하고, GPT-4o 나 Qwen2.5-VL-32B 와 같은 더 큰 모델들을 능가하는 34.6% 의 정확도를 기록하여 새로운 SOTA(State-of-the-Art) 를 달성했습니다. 특히 각도 구성 (Angular Construction, +35.3% 향상) 및 공간 투영 (Spatial Projection, +25.4% 향상) 과 같은 복잡한 시각 작업에서 압도적인 성능 향상을 보였습니다.
- MathVerse 벤치마크: 시각 의존도가 높은 카테고리 (VD, VO) 에서 기존 오픈소스 수학 특화 모델 대비 6.7% 이상의 성능 향상을 보이며, 모델이 텍스트만으로는 해결할 수 없는 시각적 세부 사항을 정확히 파악하고 있음을 입증했습니다.
- Ablation Study:
- 잠재 시각 표현 도입 없이는 성능이 26.7% 로 하락했습니다.
- 2 단계 커리큘럼 (계획 유도 내재화) 을 생략할 경우 성능이 13.1% 로 급감하여, 텍스트 기반 잠재 토큰 학습의 중요성을 입증했습니다.
- LaGDPO 를 적용하지 않거나 표준 GRPO 를 사용할 경우, 모델이 잠재 토큰 생성을 포기하고 텍스트만 생성하는 붕괴 현상이 발생하여 성능이 크게 저하되었습니다.
5. 의의 및 결론 (Significance)
이 논문은 다중 모드 기하학 추론의 핵심 난제인 '보조 구성 (Auxiliary Construction)' 문제를 해결하기 위해, 명시적인 이미지 생성의 비효율성과 외부 도구의 경직성을 극복하는 잠재 공간 기반의 새로운 접근법을 제시했습니다.
- 기술적 의의: 모델이 픽셀 단위의 이미지를 생성하지 않고도, 내부적인 연속적인 잠재 표현을 통해 복잡한 공간 관계를 '상상'하고 조작할 수 있음을 증명했습니다. 이는 다중 모드 추론의 효율성과 정확성을 동시에 높이는 중요한 진전입니다.
- 평가 체계의 발전: GeoAux 를 통해 기존에 평가되지 않았던 '구체적인 기하학적 조작 능력'을 체계적으로 측정할 수 있는 기준을 마련했습니다.
- 미래 전망: LatentGeo 는 복잡한 시각적 추론이 필요한 과학, 공학, 의료 등 다양한 분야에서 모델의 추론 능력을 향상시키는 데 기여할 수 있으며, 특히 '생성 (Generation)'이 아닌 '내재적 사고 (Internal Reasoning)'에 초점을 맞춘 차세대 MLLM 개발의 방향성을 제시합니다.