LatentGeo: Learnable Auxiliary Constructions in Latent Space for Multimodal Geometric Reasoning

본 논문은 보조 기하학적 구성을 픽셀 렌더링이나 외부 실행기 없이 잠재 공간에서 학습 가능한 연속적 시각 표현으로 내재화하여, 다중 모달 기하 추론의 성능을 획기적으로 개선하는 'LatentGeo' 프레임워크를 제안합니다.

Haiying Xu, Zihan Wang, Song Dai, Zhengxuan Zhang, Kairan Dou, Xuming Hu

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제: AI 는 왜 기하학 문제를 못 풀까?

기하학 문제를 풀 때, 우리는 종종 문제지에 그려진 그림만으로는 답을 찾을 수 없습니다. 이때 **보조선 (Auxiliary Construction)**을 그립니다.

  • 예시: 삼각형 안에 보이지 않는 선을 하나 더 그려서 각도를 구하거나, 원 안에 가상의 점을 찍어서 관계를 파악하는 것처럼요.

기존의 AI 들은 이 '보조선'을 그리는 데 큰 어려움을 겪었습니다.

  • 문장만으로는 부족해: "여기에 선을 그려라"라고 말로만 설명하면, AI 는 공간적인 관계를 제대로 이해하지 못해 엉뚱한 그림을 그리거나 헛소리를 합니다.
  • 그림을 직접 그리기는 너무 느려: AI 가 실제로 픽셀 단위로 그림을 그려내려 하면, 시간이 너무 오래 걸리고 그림이 뭉개지거나 부정확해집니다.
  • 외부 도구는 무겁고 딱딱해: 계산기를 따로 붙여쓰는 방식은 AI 가 스스로 배우고 발전하는 것을 방해합니다.

💡 2. 해결책: LatentGeo 의 "머릿속 마법"

LatentGeo 는 **"그림을 실제로 그리지 않고, 머릿속으로만 완벽하게 그리는 능력"**을 학습시킵니다.

🧠 비유: "투명한 유령 선 (Ghost Lines)"

기존 AI 가 종이에 연필로 선을 그리는 방식이었다면, LatentGeo 는 눈에 보이지 않는 투명한 유령 선을 머릿속에서 그리는 것입니다.

  • 실제 그림 (픽셀) 을 그릴 필요 없음: AI 는 화면에 그림을 그려내지 않아도 됩니다. 대신, 문제의 핵심이 되는 '보조선'의 개념을 **디지털 신호 (잠재 토큰)**로 변환하여 내부적으로 처리합니다.
  • 마치 마법사처럼: 마법사가 지팡이를 휘두르면 공중에 불꽃이 튀는 것처럼, LatentGeo 는 "보조선 필요"라고 생각하자마자 AI 의 내부 공간에 그 선이 정확히 자리 잡습니다.

🚀 3. 어떻게 가르쳤을까? (3 단계 훈련 과정)

이 AI 를 가르치기 위해 연구자들은 3 단계의 훈련 커리큘럼을 만들었습니다.

  1. 1 단계: 그림과 연결하기 (Visual-Latent Alignment)
    • AI 에게 정답인 보조선이 그려진 '참고 그림'을 보여줍니다.
    • AI 는 이 그림을 보고 "아, 이 보조선은 이런 모양과 의미를 가지고 있구나"라고 머릿속의 유령 선과 연결합니다.
  2. 2 단계: 설명만으로 그리기 (Plan-Guided Internalization)
    • 이제 참고 그림은 사라집니다. 대신 "여기에 선을 그려야 해"라는 **말 (계획)**만 줍니다.
    • AI 는 말만 듣고도 머릿속의 유령 선을 정확히 그릴 수 있어야 합니다. 마치 "눈을 감고도 자전거 타는 법을 기억하는" 것과 같습니다.
  3. 3 단계: 혼자서 해결하기 (End-to-End Reasoning)
    • 이제 AI 는 문제와 그림만 보고, 스스로 보조선을 머릿속에서 그리고, 논리를 펼쳐 정답을 찾아냅니다.

🏆 4. 왜 이것이 중요한가? (결과)

이 기술을 적용한 LatentGeo 는 기존 AI 들보다 훨씬 뛰어난 성능을 보였습니다.

  • 정확도 향상: 특히 보조선이 필요한 복잡한 문제에서 GPT-4o 같은 최신 모델보다 훨씬 잘 풀었습니다.
  • 안정성: AI 가 "그림을 그려야지"라고 생각하다가 헛소리를 하거나 (할루시네이션), 그림을 그리는 도중 멈추는 일이 거의 없습니다.
  • 새로운 기준 (GeoAux): 연구팀은 이 능력을 평가하기 위해 '보조선 그리기'에 특화된 새로운 시험지 GeoAux도 만들었습니다.

🌟 요약

LatentGeo는 AI 에게 **"눈에 보이지 않는 보조선을 머릿속으로 완벽하게 그리고, 그 선을 이용해 문제를 해결하는 능력"**을 가르친 기술입니다.

마치 수학 선생님이 칠판에 선을 그리는 대신, 학생의 머릿속에 그 선이 쏙쏙 들어오게 하는 마법과 같습니다. 덕분에 AI 는 더 이상 그림을 그리는 데 시간을 낭비하지 않고, 순수하게 '논리'와 '공간 추론'에 집중하여 기하학 문제를 해결할 수 있게 되었습니다.