LatentGeo: Learnable Auxiliary Constructions in Latent Space for Multimodal Geometric Reasoning

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제: AI 는 왜 기하학 문제를 못 풀까?

기하학 문제를 풀 때, 우리는 종종 문제지에 그려진 그림만으로는 답을 찾을 수 없습니다. 이때 **보조선 (Auxiliary Construction)**을 그립니다.

예시: 삼각형 안에 보이지 않는 선을 하나 더 그려서 각도를 구하거나, 원 안에 가상의 점을 찍어서 관계를 파악하는 것처럼요.

기존의 AI 들은 이 '보조선'을 그리는 데 큰 어려움을 겪었습니다.

문장만으로는 부족해: "여기에 선을 그려라"라고 말로만 설명하면, AI 는 공간적인 관계를 제대로 이해하지 못해 엉뚱한 그림을 그리거나 헛소리를 합니다.
그림을 직접 그리기는 너무 느려: AI 가 실제로 픽셀 단위로 그림을 그려내려 하면, 시간이 너무 오래 걸리고 그림이 뭉개지거나 부정확해집니다.
외부 도구는 무겁고 딱딱해: 계산기를 따로 붙여쓰는 방식은 AI 가 스스로 배우고 발전하는 것을 방해합니다.

💡 2. 해결책: LatentGeo 의 "머릿속 마법"

LatentGeo 는 **"그림을 실제로 그리지 않고, 머릿속으로만 완벽하게 그리는 능력"**을 학습시킵니다.

🧠 비유: "투명한 유령 선 (Ghost Lines)"

기존 AI 가 종이에 연필로 선을 그리는 방식이었다면, LatentGeo 는 눈에 보이지 않는 투명한 유령 선을 머릿속에서 그리는 것입니다.

실제 그림 (픽셀) 을 그릴 필요 없음: AI 는 화면에 그림을 그려내지 않아도 됩니다. 대신, 문제의 핵심이 되는 '보조선'의 개념을 **디지털 신호 (잠재 토큰)**로 변환하여 내부적으로 처리합니다.
마치 마법사처럼: 마법사가 지팡이를 휘두르면 공중에 불꽃이 튀는 것처럼, LatentGeo 는 "보조선 필요"라고 생각하자마자 AI 의 내부 공간에 그 선이 정확히 자리 잡습니다.

🚀 3. 어떻게 가르쳤을까? (3 단계 훈련 과정)

이 AI 를 가르치기 위해 연구자들은 3 단계의 훈련 커리큘럼을 만들었습니다.

1 단계: 그림과 연결하기 (Visual-Latent Alignment)
- AI 에게 정답인 보조선이 그려진 '참고 그림'을 보여줍니다.
- AI 는 이 그림을 보고 "아, 이 보조선은 이런 모양과 의미를 가지고 있구나"라고 머릿속의 유령 선과 연결합니다.
2 단계: 설명만으로 그리기 (Plan-Guided Internalization)
- 이제 참고 그림은 사라집니다. 대신 "여기에 선을 그려야 해"라는 **말 (계획)**만 줍니다.
- AI 는 말만 듣고도 머릿속의 유령 선을 정확히 그릴 수 있어야 합니다. 마치 "눈을 감고도 자전거 타는 법을 기억하는" 것과 같습니다.
3 단계: 혼자서 해결하기 (End-to-End Reasoning)
- 이제 AI 는 문제와 그림만 보고, 스스로 보조선을 머릿속에서 그리고, 논리를 펼쳐 정답을 찾아냅니다.

🏆 4. 왜 이것이 중요한가? (결과)

이 기술을 적용한 LatentGeo 는 기존 AI 들보다 훨씬 뛰어난 성능을 보였습니다.

정확도 향상: 특히 보조선이 필요한 복잡한 문제에서 GPT-4o 같은 최신 모델보다 훨씬 잘 풀었습니다.
안정성: AI 가 "그림을 그려야지"라고 생각하다가 헛소리를 하거나 (할루시네이션), 그림을 그리는 도중 멈추는 일이 거의 없습니다.
새로운 기준 (GeoAux): 연구팀은 이 능력을 평가하기 위해 '보조선 그리기'에 특화된 새로운 시험지 GeoAux도 만들었습니다.

🌟 요약

LatentGeo는 AI 에게 **"눈에 보이지 않는 보조선을 머릿속으로 완벽하게 그리고, 그 선을 이용해 문제를 해결하는 능력"**을 가르친 기술입니다.

마치 수학 선생님이 칠판에 선을 그리는 대신, 학생의 머릿속에 그 선이 쏙쏙 들어오게 하는 마법과 같습니다. 덕분에 AI 는 더 이상 그림을 그리는 데 시간을 낭비하지 않고, 순수하게 '논리'와 '공간 추론'에 집중하여 기하학 문제를 해결할 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경 및 한계:
다중 모드 대규모 언어 모델 (MLLM) 은 일반적인 수학 추론에서 뛰어난 성과를 보이지만, 기하학적 추론 (Geometric Reasoning) 분야에서는 여전히 큰 어려움을 겪고 있습니다. 특히 복잡한 기하학 문제를 해결할 때는 주어진 도형에 없는 보조 구성 (Auxiliary Constructions, 예: 보조선, 새로운 점, 회전 등) 을 논리적으로 도입해야만 정리를 적용할 수 있습니다.

기존 접근법의 문제점:
기존의 보조 구성을 다루는 방법들은 다음과 같은 근본적인 한계가 있었습니다.

텍스트 기반 추론: 복잡한 공간 관계를 텍스트로만 표현하려다 보니, 추론 과정에서 기하학적 배치에 대한 환각 (Hallucination) 이 발생하거나 공간적 관계를 왜곡합니다.
명시적 시각 생성 (Explicit Visual Generation): 중간 단계의 스케치를 픽셀 단위로 렌더링하는 방식은 계산 비용이 크고, 이산적인 심볼과 연속적인 기하 구조 간의 표현 불일치 (Representation Mismatch) 를 초래하며 정밀도가 낮습니다.
외부 도구 의존 (Tool-augmented Execution): 외부의 규칙 기반 실행 도구를 사용하는 방식은 정밀한 계산을 가능하게 하지만, 암묵적인 기하학적 제약 조건이 있는 경우 실패하며, 모델의 End-to-End 최적화를 방해합니다.

핵심 문제:
기하학적 보조 구성을 픽셀 렌더링이나 외부 도구 없이, 모델 내부에서 연속적인 잠재 공간 (Latent Space) 에서 학습하고 내재화하여, 복잡한 공간 관계를 정확하게 표현하고 추론하는 방법을 찾는 것입니다.

2. 방법론 (Methodology)

저자들은 LatentGeo라는 새로운 프레임워크를 제안합니다. 이는 명시적인 이미지 생성 대신 학습 가능한 연속적인 잠재 토큰 (Learnable Continuous Latent Tokens) 을 사용하여 보조 구성을 내재화합니다.

2.1 잠재 계획 및 추론 구조 (Latent Planning Framework)

추론 과정을 세 단계로 분해하여 모델링합니다:

상징적 계획 (Symbolic Planning): 문제 해결을 위한 기하학적 계획 ( $T_{plan}$ ) 을 텍스트로 생성합니다.
잠재 구성 (Latent Construction): 계획에 따라 보조 도형의 시각적 정보를 잠재 토큰 시퀀스 ( $Z$ ) 로 생성합니다. 이는 픽셀이 아닌 고차원 벡터 공간에서 이루어집니다.
최종 추론 (Final Reasoning): 계획과 잠재 구성 정보를 바탕으로 최종 답안 ( $A$ ) 을 도출합니다.

2.2 잠재 시각적 사고 메커니즘 (Latent Visual Thinking Mechanism)

잠재 토큰: 모델 어휘에 <|latent_start|>, <|latent_end|> 등의 특수 토큰을 추가하여 보조 구성 구간을 표시합니다.
정렬 (Alignment): 학습 시, 정답 보조 도형 ( $I_{aux}$ ) 을 비주얼 인코더 (ViT) 와 프로젝터 ( $\Phi$ ) 를 통해 잠재 공간의 타겟 표현 ( $H_{target}$ ) 으로 변환합니다.
손실 함수: 모델이 생성한 잠재 토큰의 숨겨진 상태 ( $H_{gen}$ ) 와 $H_{target}$ 사이의 코사인 유사도와 MSE를 결합한 하이브리드 정렬 손실 ( $L_{align}$ ) 을 사용하여, 모델이 보조선의 기하학적 구조를 정확히 학습하도록 유도합니다.

2.3 3 단계 커리큘럼 학습 전략 (Three-Stage Curriculum Learning)

모델이 테스트 시 정답 보조 도형 없이도 스스로 보조 구성을 할 수 있도록 3 단계로 점진적으로 학습시킵니다.

Stage 1 (시각 - 잠재 정렬): 텍스트, 이미지, 그리고 정답 보조 도형 ( $I_{aux}$ ) 을 모두 사용하여 잠재 토큰과 시각적 구조를 강하게 정렬합니다.
Stage 2 (계획 유도 내재화): 입력 이미지를 제거하고 계획 ( $T_{plan}$ ) 만으로 잠재 구성을 생성하도록 학습합니다. 텍스트 기반의 잠재 표현이 시각적 원시 데이터와 얼마나 잘 일치하는지 대조 학습 (Consistency Loss) 을 통해 강화합니다.
Stage 3 (End-to-End 추론): 모든 보조 시각적 감독 (Ground-truth $I_{aux}$ ) 을 제거합니다. 모델은 계획, 잠재 토큰, 답안을 하나의 시퀀스로 생성하며, 오직 최종 답안에 대한 크로스 엔트로피 손실만 사용합니다. 이를 통해 모델이 완전히 자율적으로 보조 구성을 수행하도록 만듭니다.

2.4 LaGDPO: 잠재 인식 그룹 분해 정책 최적화 (Latent-aware Group Decoupled Policy Optimization)

강화 학습 (RL) 단계를 도입하여 최종 답의 정확성과 잠재 구성의 안정성을 동시에 최적화합니다.

보상 설계: 정답 정확도, 형식 준수, 잠재 구성의 유무 (단일 구간 생성), 길이 패널티, 반복 패널티 등을 종합한 보상 함수를 설계합니다.
그룹 분해 추정 (Group-Decoupled Estimation): 여러 보상 신호 간의 불균형으로 인한 학습 불안정을 해결하기 위해, 동일한 프롬프트에서 생성된 여러 샘플 내에서 각 보상 성분을 정규화 (Normalization) 한 후 집계합니다.
잠재 인식 디코딩 안정화: RL 탐색 중 모델이 잠재 토큰을 생성하지 않고 텍스트만 생성하는 '붕괴 (Degradation)' 현상을 방지하기 위해, 잠재 토큰 시작/종료 토큰에 동적으로 적용되는 로그its 편향 (Logit Bias) 을 도입합니다. 학습이 진행됨에 따라 이 편향이 자동으로 감소하도록 설계했습니다.

3. 주요 기여 (Key Contributions)

LatentGeo 프레임워크: 픽셀 렌더링이나 외부 도구의 의존 없이, 학습 가능한 연속 잠재 토큰을 통해 기하학적 보조 구성을 내재화하는 새로운 추론 패러다임을 제시했습니다.
커리큘럼 내재화 전략: 시각적 감독에서 시작하여 텍스트 기반 계획으로, 최종적으로는 완전 자율 추론으로 이어지는 3 단계 SFT 전략을 설계하여 모델이 보조 구성 능력을 스스로 습득하도록 했습니다.
LaGDPO 알고리즘: 잠재 시각적 추론의 안정성을 유지하면서 최종 작업의 정확도를 극대화하는 잠재 인식 강화 학습 (RL) 절차를 제안했습니다. 이는 기존 RL 방법이 다중 모드 구성 작업에서 겪는 불안정성을 해결합니다.
GeoAux 벤치마크: 보조 구성이 필수적인 복잡하고 시각적으로 기반한 기하학 문제를 평가하기 위해 GeoAux라는 새로운 벤치마크를 구축했습니다. 이는 기존 벤치마크가 놓치고 있던 '구성 중심 (Construction-centric)' 능력을 체계적으로 평가합니다.

4. 실험 결과 (Results)

GeoAux 벤치마크: LatentGeo 는 7B 파라미터 모델임에도 불구하고, GPT-4o 나 Qwen2.5-VL-32B 와 같은 더 큰 모델들을 능가하는 34.6% 의 정확도를 기록하여 새로운 SOTA(State-of-the-Art) 를 달성했습니다. 특히 각도 구성 (Angular Construction, +35.3% 향상) 및 공간 투영 (Spatial Projection, +25.4% 향상) 과 같은 복잡한 시각 작업에서 압도적인 성능 향상을 보였습니다.
MathVerse 벤치마크: 시각 의존도가 높은 카테고리 (VD, VO) 에서 기존 오픈소스 수학 특화 모델 대비 6.7% 이상의 성능 향상을 보이며, 모델이 텍스트만으로는 해결할 수 없는 시각적 세부 사항을 정확히 파악하고 있음을 입증했습니다.
Ablation Study:
- 잠재 시각 표현 도입 없이는 성능이 26.7% 로 하락했습니다.
- 2 단계 커리큘럼 (계획 유도 내재화) 을 생략할 경우 성능이 13.1% 로 급감하여, 텍스트 기반 잠재 토큰 학습의 중요성을 입증했습니다.
- LaGDPO 를 적용하지 않거나 표준 GRPO 를 사용할 경우, 모델이 잠재 토큰 생성을 포기하고 텍스트만 생성하는 붕괴 현상이 발생하여 성능이 크게 저하되었습니다.

5. 의의 및 결론 (Significance)

이 논문은 다중 모드 기하학 추론의 핵심 난제인 '보조 구성 (Auxiliary Construction)' 문제를 해결하기 위해, 명시적인 이미지 생성의 비효율성과 외부 도구의 경직성을 극복하는 잠재 공간 기반의 새로운 접근법을 제시했습니다.

기술적 의의: 모델이 픽셀 단위의 이미지를 생성하지 않고도, 내부적인 연속적인 잠재 표현을 통해 복잡한 공간 관계를 '상상'하고 조작할 수 있음을 증명했습니다. 이는 다중 모드 추론의 효율성과 정확성을 동시에 높이는 중요한 진전입니다.
평가 체계의 발전: GeoAux 를 통해 기존에 평가되지 않았던 '구체적인 기하학적 조작 능력'을 체계적으로 측정할 수 있는 기준을 마련했습니다.
미래 전망: LatentGeo 는 복잡한 시각적 추론이 필요한 과학, 공학, 의료 등 다양한 분야에서 모델의 추론 능력을 향상시키는 데 기여할 수 있으며, 특히 '생성 (Generation)'이 아닌 '내재적 사고 (Internal Reasoning)'에 초점을 맞춘 차세대 MLLM 개발의 방향성을 제시합니다.