Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

이 논문은 시각적 도식과 기호적 추론 간의 정렬을 강화하기 위해 프로그래밍 코드를 기반으로 복잡한 기하학 문제를 생성하는 'GeoCode' 데이터셋과 학습 파이프라인을 제안하며, 이를 통해 기존 벤치마크에서 뛰어난 성능 향상을 입증했습니다.

Haobo Lin, Tianyi Bai, Chen Chen, Jiajun Zhang, Bohan Zeng, Wentao Zhang, Binhang Yuan

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"기하학 문제를 그림으로만 보고 해결하는 AI 를 어떻게 더 똑똑하게 만들까?"**에 대한 해답을 제시합니다.

기존의 AI(비전-언어 모델) 는 수학 문제를 풀 때 그림을 보더라도, 그 안에 숨겨진 기하학적 구조를 제대로 이해하지 못해 헷갈리거나 틀리는 경우가 많았습니다. 이 연구는 그 문제를 해결하기 위해 새로운 데이터 만드는 방법새로운 학습 방식을 제안했습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "그림을 보지만, 구조를 못 보는 AI"

기존의 AI 는 기하학 문제를 풀 때, 그림을 보고 "아, 이 선이 저 선과 평행하네"라고 말로 설명하는 데는 능숙했지만, 그림 속의 복잡한 관계들을 논리적으로 연결하는 능력이 부족했습니다. 마치 건축 도면을 보고 "벽이 여기 있네"라고 말은 할 수 있지만, "이 벽이 왜 저기 있어야 하는지, 기둥과 어떻게 연결되어 있는지"를 이해하지 못하는 상태와 같습니다.

또한, 기존에 학습시킨 데이터들은 너무 단순하거나, 사람이 일일이 만들어서 다양성이 부족했습니다.

2. 해결책 1: "완벽한 시뮬레이션 공장" (GeoCode 데이터 생성)

연구팀은 AI 가 배울 수 있는 **새로운 기하학 문제 데이터 (GeoCode)**를 0 부터 직접 만들었습니다. 이 과정은 마치 정교한 건축 시뮬레이터를 가동하는 것과 같습니다.

  • 1 단계: 뼈대 설계 (Symbolic Seed)
    먼저 수학 공리 (원리) 만으로 건물의 뼈대 (도형의 관계) 를 설계합니다. "A 와 B 는 수직이고, B 와 C 는 평행하다" 같은 논리적 뼈대만 먼저 잡는 거죠.
  • 2 단계: 실제 재료 입히기 (Instantiation)
    이제 AI 가 이 뼈대에 구체적인 숫자 (길이, 각도) 를 채우고, 자연어로 된 문제 문장을 작성합니다. "삼각형 ABC 에서 AB 길이는 5 입니다..." 같은 식이죠.
  • 3 단계: 3D 렌더링 및 검증 (Visualization & Verification)
    가장 중요한 부분입니다. 단순히 그림을 그리는 게 아니라, 컴퓨터 코드로 정확한 좌표를 계산하여 그림을 그립니다. 그리고 그 그림이 문제의 조건과 100% 일치하는지, 수학적으로 모순이 없는지 자동으로 검증합니다.

이 과정을 통해 문자, 논리, 그림, 코드가 완벽하게 일치하는 고품질 문제 1 만 8 천 개를 만들었습니다.

3. 해결책 2: "그림을 코드로 다시 그리게 하기" (Plotting Code Alignment)

이 연구의 가장 혁신적인 아이디어는 학습 방법에 있습니다.

기존에는 AI 에게 "그림을 보고 답을 말해봐"라고만 시켰습니다. 하지만 연구팀은 **"그림을 보고, 그 그림을 그리는 '코딩 명령어'를 먼저 작성하게 하라"**고 시켰습니다.

  • 비유:
    • 기존 방식: 그림을 보고 "이건 사각형이야"라고 말하게 하는 것. (그림의 표면만 이해)
    • 새로운 방식: 그림을 보고 "점 A 를 (0,0) 에 두고, 점 B 를 (5,0) 에 두고, 선분을 연결해"라는 **구체적인 건축 명령어 (코드)**를 작성하게 하는 것.

이렇게 하면 AI 는 단순히 그림을 '보는' 것을 넘어, 그림이 어떻게 만들어졌는지 그 구조와 논리를 직접 재구성하게 됩니다. 그림을 그리는 코드를 작성하는 과정 자체가 AI 의 눈과 뇌를 기하학적 구조에 맞게 훈련시키는 강력한 도구 역할을 한 것입니다.

4. 결과: "진짜 기하학 천재로 성장한 AI"

이 새로운 방법 (GeoCode 데이터 + 코드 학습) 으로 훈련된 AI 는 다음과 같은 성과를 거두었습니다.

  • 더 어려운 문제도 해결: 기존에 풀지 못했던 올림피아드 수준의 복잡한 기하학 문제에서도 성능이 크게 향상되었습니다.
  • 다른 문제에도 적용 가능: 학습한 데이터가 아니더라도, 새로운 기하학 문제를 만나도 잘 풀어냈습니다. (이것은 AI 가 패턴을 외운 게 아니라, 진짜 원리를 이해했기 때문입니다.)
  • 구조 이해도 향상: 그림 속의 점과 선이 어떻게 연결되어 있는지 정확히 파악하는 능력이 비약적으로 발전했습니다.

요약

이 논문은 **"AI 가 그림을 제대로 이해하게 하려면, 그림을 단순히 보는 게 아니라 그 그림을 그리는 '설계도 (코드)'를 직접 작성하게 해야 한다"**는 것을 증명했습니다. 마치 건축가가 도면을 보고 건물을 짓는 법을 배우는 것처럼, AI 도 그림을 그리는 논리를 학습함으로써 기하학의 본질을 깨우치게 된 것입니다.

이 방법은 앞으로 AI 가 복잡한 시각적 문제를 해결하는 데 큰 전환점이 될 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →