ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

이 논문은 Miller 의 법칙과 인간의 문제 해결 패턴에 영감을 받아, 동적 시각 정보 획득과 단계별 추론을 가능하게 하는 'Reason Chunking' 메커니즘을 도입하고 CRUX 데이터셋 및 점진적 학습 전략을 통해 다중 모달 수학 추론 성능을 획기적으로 향상시킨 ViRC 프레임워크를 제안합니다.

Lihong Wang, Liangqi Li, Weiwei Feng, Jiamin Wu, Changtao Miao, Tieru Wu, Rui Ma, Bo Zhang, Zhe Li

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

VIRC: 수학 문제를 푸는 '인간 같은' AI의 새로운 비법

이 논문은 VIRC라는 새로운 인공지능(AI) 모델을 소개합니다. 이 모델은 복잡한 수학 문제를 풀 때, 마치 인간이 그림을 보며 단계별로 생각하듯이 행동하도록 설계되었습니다.

기존의 AI 들은 수학 문제를 풀 때, 그림을 한 번만 보고는 끝까지 텍스트로만 답을 찾으려 했습니다. 하지만 인간은 문제를 풀다가 막히면 다시 그림을 자세히 보거나, 확대하거나, 특정 부분만 잘라보며 단계별로 논리를 쌓아갑니다. VIRC 는 바로 이 인간의 사고 방식을 모방한 것입니다.

이 논리의 핵심을 쉽게 설명해 드릴게요.


1. 문제: AI 는 왜 수학 그림을 못 볼까?

기존 AI 들은 수학 문제를 풀 때 두 가지 극단적인 방식을 썼습니다.

  • 방식 A (텍스트만 믿기): 그림을 처음에 한 번만 보고, 그 이후로는 눈으로 확인하지 않고 텍스트만 계속 씁니다. (마치 눈을 감고 문제를 푸는 것과 같습니다.)
  • 방식 B (너무 자주 보기): 매 단계마다 그림을 다시 봅니다. 하지만 중요한 부분만 보는 게 아니라, 쓸데없는 부분까지 다 보느라 혼란을 겪습니다. (마치 매 1 초마다 카메라를 돌리는 것과 같습니다.)

2. 해결책: 'Reason Chunking' (생각의 덩어리 만들기)

이 논문은 **밀러의 법칙 (Miller's Law)**이라는 심리학 이론에서 영감을 받았습니다. 이 법칙은 "인간의 뇌는 한 번에 7 개 정도의 정보 덩어리 (Chunk) 만 처리할 수 있다"는 것입니다.

VIRC 는 이 원리를 적용하여 문제를 **CRU(중요 추론 단위)**라는 작은 덩어리로 나눕니다.

  • 비유: 긴 수학 문제를 풀 때, 한 번에 다 풀려고 하지 않고 **"1 단계: 각도 찾기", "2 단계: 변의 길이 계산", "3 단계: 최종 합치기"**처럼 작은 목표 단위로 쪼개는 것입니다.
  • VIRC 의 방식: 각 '덩어리 (CRU)' 안에서만 논리를 정리하고, 다음 단계로 넘어갈 때 필요한 순간에만 그림을 다시 봅니다. 이때 그림을 어떻게 볼지 결정합니다.
    • 확대 (Scale): 너무 작아서看不清 (잘 안 보일 때) 확대합니다.
    • 자르기 (Crop): 중요한 부분만 잘라내어 집중합니다.
    • 다시 보기 (Display): 헷갈리면 원래 그림을 다시 확인합니다.

3. 훈련 방법: 인간처럼 배우는 3 단계 과정

이 모델은 단순히 많은 문제를 풀게 하는 게 아니라, 인간이 배우는 과정을 따라가며 훈련합니다.

  1. 1 단계: 이론 수업 (Instructional SFT)

    • 그림 없이 텍스트만으로 "어떻게 문제를 덩어리로 나누고, 어떤 순서로 생각해야 하는지" 구조를 먼저 배웁니다.
    • 비유: 수학 공식을 외우고 문제 풀이 순서를 머릿속에 그리는 단계입니다.
  2. 2 단계: 실전 연습 (Practice SFT)

    • 이제 그림을 실제로 보고, 위에서 배운 순서대로 그림을 확대하거나 자르며 문제를 풉니다.
    • 비유: 이론을 배웠으니, 이제 연필과 자를 들고 실제 문제를 풀며 눈으로 확인하는 단계입니다.
  3. 3 단계: 전략 강화 (Strategic RL)

    • 가장 어려운 문제들만 골라, "어떤 상황에서 어떤 도구를 써야 가장 효율적인가?"를 스스로 학습합니다.
    • 비유: 어려운 시험 문제를 풀면서, "아, 이 문제는 확대해서 봐야겠다", "저 문제는 다시 전체를 봐야겠다"는 전략을 스스로 터득하는 단계입니다.

4. 결과: 왜 이것이 특별한가?

이 방식을 적용한 VIRC-7B 모델은 기존 최고의 모델들보다 수학 문제 해결 능력이 약 19% 향상되었습니다.

  • 기존 모델: 그림을 보다가 헷갈리면 계속 같은 실수를 반복하거나, 너무 많은 정보를 받아들이고 망가집니다.
  • VIRC: "이제 이 부분만 봐야겠다"라고 판단하고 그림을 확대하거나, "아, 내가 잘못 생각했네"라고 판단하고 다시 전체를 확인합니다.

요약

이 논문은 **"AI 가 수학 문제를 풀 때, 인간의 눈과 뇌가 작동하는 방식처럼 '단계별로' 그리고 '필요할 때만' 그림을 보게 하자"**는 아이디어를 제시했습니다.

마치 수학 선생님이 칠판의 복잡한 도형을 가리키며 "자, 여기만 집중해 보자"라고 가르쳐주는 것처럼, VIRC 는 AI 가 스스로 중요한 정보를 찾아내고 논리를 쌓아갈 수 있도록 도와줍니다. 이는 AI 가 단순히 답을 맞추는 것을 넘어, 진짜로 '생각'하는 단계로 나아갔음을 의미합니다.