Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"기하학 문제를 그림으로만 보고 해결하는 AI 를 어떻게 더 똑똑하게 만들까?"**에 대한 해답을 제시합니다.

기존의 AI(비전-언어 모델) 는 수학 문제를 풀 때 그림을 보더라도, 그 안에 숨겨진 기하학적 구조를 제대로 이해하지 못해 헷갈리거나 틀리는 경우가 많았습니다. 이 연구는 그 문제를 해결하기 위해 새로운 데이터 만드는 방법과 새로운 학습 방식을 제안했습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: "그림을 보지만, 구조를 못 보는 AI"

기존의 AI 는 기하학 문제를 풀 때, 그림을 보고 "아, 이 선이 저 선과 평행하네"라고 말로 설명하는 데는 능숙했지만, 그림 속의 복잡한 관계들을 논리적으로 연결하는 능력이 부족했습니다. 마치 건축 도면을 보고 "벽이 여기 있네"라고 말은 할 수 있지만, "이 벽이 왜 저기 있어야 하는지, 기둥과 어떻게 연결되어 있는지"를 이해하지 못하는 상태와 같습니다.

또한, 기존에 학습시킨 데이터들은 너무 단순하거나, 사람이 일일이 만들어서 다양성이 부족했습니다.

2. 해결책 1: "완벽한 시뮬레이션 공장" (GeoCode 데이터 생성)

연구팀은 AI 가 배울 수 있는 **새로운 기하학 문제 데이터 (GeoCode)**를 0 부터 직접 만들었습니다. 이 과정은 마치 정교한 건축 시뮬레이터를 가동하는 것과 같습니다.

1 단계: 뼈대 설계 (Symbolic Seed)
먼저 수학 공리 (원리) 만으로 건물의 뼈대 (도형의 관계) 를 설계합니다. "A 와 B 는 수직이고, B 와 C 는 평행하다" 같은 논리적 뼈대만 먼저 잡는 거죠.
2 단계: 실제 재료 입히기 (Instantiation)
이제 AI 가 이 뼈대에 구체적인 숫자 (길이, 각도) 를 채우고, 자연어로 된 문제 문장을 작성합니다. "삼각형 ABC 에서 AB 길이는 5 입니다..." 같은 식이죠.
3 단계: 3D 렌더링 및 검증 (Visualization & Verification)
가장 중요한 부분입니다. 단순히 그림을 그리는 게 아니라, 컴퓨터 코드로 정확한 좌표를 계산하여 그림을 그립니다. 그리고 그 그림이 문제의 조건과 100% 일치하는지, 수학적으로 모순이 없는지 자동으로 검증합니다.

이 과정을 통해 문자, 논리, 그림, 코드가 완벽하게 일치하는 고품질 문제 1 만 8 천 개를 만들었습니다.

3. 해결책 2: "그림을 코드로 다시 그리게 하기" (Plotting Code Alignment)

이 연구의 가장 혁신적인 아이디어는 학습 방법에 있습니다.

기존에는 AI 에게 "그림을 보고 답을 말해봐"라고만 시켰습니다. 하지만 연구팀은 **"그림을 보고, 그 그림을 그리는 '코딩 명령어'를 먼저 작성하게 하라"**고 시켰습니다.

비유:
- 기존 방식: 그림을 보고 "이건 사각형이야"라고 말하게 하는 것. (그림의 표면만 이해)
- 새로운 방식: 그림을 보고 "점 A 를 (0,0) 에 두고, 점 B 를 (5,0) 에 두고, 선분을 연결해"라는 **구체적인 건축 명령어 (코드)**를 작성하게 하는 것.

이렇게 하면 AI 는 단순히 그림을 '보는' 것을 넘어, 그림이 어떻게 만들어졌는지 그 구조와 논리를 직접 재구성하게 됩니다. 그림을 그리는 코드를 작성하는 과정 자체가 AI 의 눈과 뇌를 기하학적 구조에 맞게 훈련시키는 강력한 도구 역할을 한 것입니다.

4. 결과: "진짜 기하학 천재로 성장한 AI"

이 새로운 방법 (GeoCode 데이터 + 코드 학습) 으로 훈련된 AI 는 다음과 같은 성과를 거두었습니다.

더 어려운 문제도 해결: 기존에 풀지 못했던 올림피아드 수준의 복잡한 기하학 문제에서도 성능이 크게 향상되었습니다.
다른 문제에도 적용 가능: 학습한 데이터가 아니더라도, 새로운 기하학 문제를 만나도 잘 풀어냈습니다. (이것은 AI 가 패턴을 외운 게 아니라, 진짜 원리를 이해했기 때문입니다.)
구조 이해도 향상: 그림 속의 점과 선이 어떻게 연결되어 있는지 정확히 파악하는 능력이 비약적으로 발전했습니다.

요약

이 논문은 **"AI 가 그림을 제대로 이해하게 하려면, 그림을 단순히 보는 게 아니라 그 그림을 그리는 '설계도 (코드)'를 직접 작성하게 해야 한다"**는 것을 증명했습니다. 마치 건축가가 도면을 보고 건물을 짓는 법을 배우는 것처럼, AI 도 그림을 그리는 논리를 학습함으로써 기하학의 본질을 깨우치게 된 것입니다.

이 방법은 앞으로 AI 가 복잡한 시각적 문제를 해결하는 데 큰 전환점이 될 것으로 기대됩니다.

Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

1. 문제: "그림을 보지만, 구조를 못 보는 AI"

2. 해결책 1: "완벽한 시뮬레이션 공장" (GeoCode 데이터 생성)

3. 해결책 2: "그림을 코드로 다시 그리게 하기" (Plotting Code Alignment)

4. 결과: "진짜 기하학 천재로 성장한 AI"

요약

1. 연구 배경 및 문제 정의 (Problem)

2. 제안 방법론 (Methodology)

A. 데이터 생성 파이프라인 (Generation Pipeline)

B. 명시적 정렬을 위한 플롯팅 코드 (Plotting Code as Explicit Alignment)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

1. 문제: "그림을 보지만, 구조를 못 보는 AI"

2. 해결책 1: "완벽한 시뮬레이션 공장" (GeoCode 데이터 생성)

3. 해결책 2: "그림을 코드로 다시 그리게 하기" (Plotting Code Alignment)

4. 결과: "진짜 기하학 천재로 성장한 AI"

요약

1. 연구 배경 및 문제 정의 (Problem)

2. 제안 방법론 (Methodology)

A. 데이터 생성 파이프라인 (Generation Pipeline)

B. 명시적 정렬을 위한 플롯팅 코드 (Plotting Code as Explicit Alignment)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems