Each language version is independently generated for its own context, not a direct translation.

VisDoT: 차트 읽는 AI 에게 '사람처럼 생각'하는 법을 가르치다

이 논문은 **"AI 가 차트나 그래프를 볼 때, 왜 사람처럼 정확하게 이해하지 못하는가?"**라는 질문에서 시작합니다. 그리고 그 해답으로 VisDoT라는 새로운 방법을 제안합니다.

이걸 쉽게 이해하기 위해, AI 가 차트를 보는 과정을 **'초보 요리사'**와 **'숙련된 셰프'**의 비교로 비유해 보겠습니다.

1. 문제: AI 는 왜 차트를 못 읽나요? (초보 요리사의 실수)

지금까지의 큰 AI 모델 (LVLM) 들은 차트를 볼 때, 마치 레시피를 읽지 않고 재료만 대충 보고 요리를 하려는 초보 요리사와 같습니다.

실수 예시: "이 그래프에서 가장 높은 막대가 몇 년도일까요?"라고 물으면, AI 는 막대의 높이를 정확히 재지 않고 "아마 2023 년일 거예요"라고 막연히 추측하거나, 색깔만 보고 엉뚱한 답을 내놓습니다.
핵심 원인: AI 는 차트의 **시각적 요소 (막대 길이, 위치, 색상)**와 **의미 (숫자, 날짜)**를 제대로 연결하지 못합니다. 이를 전문가 용어로 **'그라운딩 (Grounding) 부족'**이라고 합니다.

2. 해결책: VisDoT (숙련된 셰프의 사고 과정)

저자들은 AI 에게 **"사람이 차트를 읽는 방식"**을 가르쳤습니다. 사람이 차트를 볼 때 무의식적으로 하는 두 가지 단계를 AI 에게 명확하게 분리해 준 것입니다.

① 단계 1: "눈으로 확인하기" (감각적 인식)

사람은 차트를 볼 때 먼저 **"어디에 뭐가 있는지"**를 정확히 파악합니다.

위치 (Position): "이 막대가 왼쪽에서 세 번째야."
길이 (Length): "이 막대가 저 막대보다 2 배 더 길어."
무늬/색상 (Pattern): "이건 빨간색 줄무늬야, 저건 파란색 점무늬야."
읽기 (Extract): "이 숫자가 50 이네."

VisDoT 는 AI 에게 이 4 가지 감각 작업을 먼저 수행하도록 훈련시켰습니다. 마치 요리사가 "이게 소금이고, 저게 설탕이야"라고 재료를 정확히 확인하는 것과 같습니다.

② 단계 2: "생각해서 답하기" (논리적 추론)

감각으로 확인한 정보를 바탕으로 이제 논리를 적용합니다.

"왼쪽 세 번째 막대 (50) 가 오른쪽 막대 (20) 보다 30 더 크네."
"그렇다면 답은 30 이다."

3. 핵심 기술: DoT (생각의 분해)

이 논문에서 가장 중요한 아이디어는 **DoT (Decomposition-of-Thought, 생각의 분해)**입니다.

기존 방식 (CoT): AI 가 "음... 이거 계산해볼까? 아마 50 일 거야... 아니 40 일 수도 있고..."라고 혼란스럽게 한 번에 모든 것을 생각하려 했습니다.
VisDoT 방식 (DoT): AI 가 **"먼저 눈으로 보고, 그 다음에 생각하자"**라고 순서대로 생각하게 합니다.
1. 질문 분해: "먼저 빨간 막대의 높이를 찾아봐. 그다음 파란 막대 높이를 찾아봐. 마지막으로 두 값을 비교해."
2. 순차적 해결: 하나씩 차근차근 답을 찾아갑니다.

이건 마치 복잡한 레시피를 "재료 준비 → 손질하기 → 조리하기"로 단계별로 나누는 것과 같습니다. 이렇게 하면 AI 가 헷갈리거나 엉뚱한 답을 내는 실수가 크게 줄어듭니다.

4. 결과: 얼마나 잘해냈나요?

이 방법을 적용한 AI 는 놀라운 성과를 냈습니다.

차트 이해도 대폭 향상: 기존 AI 들이 틀리던 복잡한 차트 질문에서도 정답률을 크게 높였습니다. 특히 GPT-4o 같은 최상위 상용 모델보다 더 잘하는 경우도 있었습니다.
유연한 적용: 차트뿐만 아니라 일반적인 이미지 질문에서도 "먼저 눈으로 확인하고 생각하자"는 원칙을 적용하면 성능이 좋아졌습니다.
이해 가능한 이유: AI 가 왜 그런 답을 냈는지 단계별 생각 과정을 보여주기 때문에, 우리가 AI 의 실수를 쉽게 찾아낼 수 있습니다.

5. 요약: 한 문장으로 정리

"VisDoT 는 AI 에게 차트를 볼 때 '눈으로 먼저 확인하고 (감각)', 그다음에 '머리로 계산하라 (논리)'는 인간다운 사고 방식을 가르쳐, AI 가 차트를 훨씬 더 똑똑하고 정확하게 읽게 만든 기술입니다."

이 기술은 AI 가 단순히 데이터를 외우는 것을 넘어, 데이터의 의미를 진짜로 이해하는 단계로 나아가는 중요한 발걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대규모 시각 - 언어 모델 (LVLMs) 은 차트, 그래프, 인포그래픽과 같은 시각화된 데이터를 해석하고, 상호 연관된 시각 요소를 기반으로 추론하는 데 있어 근본적인 한계를 겪고 있습니다.

지각적 그라운딩 (Perceptual Grounding) 의 부재: 기존 모델은 범례 (legend), 축 이름 등 명시적인 식별자가 주어지지 않은 경우, 색상, 공간 좌표, 모양과 같은 시각적 원시 요소 (visual primitives) 를 신뢰성 있게 감지하고 의미 있는 표현과 정렬하는 데 실패합니다.
복잡한 추론의 한계: 기존 연구는 주로 텍스트 기반 키워드 - 값 매핑이나 단순한 체인 오브 씽킹 (CoT) 에 의존합니다. 그러나 이는 고수준의 지각적 정렬 (예: 범례 식별, 다중 객체 비교) 이 필요한 작업에서 성능이 급격히 저하됩니다.
CoT 의 비효율성: 텍스트 전용 추론에는 효과적이지만, 시각적 근거가 필요한 추론 환경에서는 CoT 가 시각적 착각 (hallucination) 을 유발하거나 잘못된 추론 경로를 따라가게 만드는 경우가 많습니다.

2. 제안 방법론 (Methodology)

저자들은 인간의 시각적 해석 과정을 모방하여 LVLM 의 시각적 그라운딩과 추론 능력을 향상시키는 VisDoT 프레임워크를 제안합니다. 이 프레임워크는 크게 두 가지 핵심 요소로 구성됩니다.

A. 그래픽 지각 이론 기반의 4 가지 지각 작업 (Perceptual Tasks)

Cleveland 와 McGill 의 그래픽 지각 이론을 기반으로, 모델이 인간과 유사하게 데이터를 해석하도록 4 가지 핵심 지각 작업을 정의하고 이를 학습 데이터에 반영합니다.

Position (위치): 공통 축 (x 축 또는 y 축) 을 따라 객체의 위치를 비교하여 상대적 순서를 결정합니다. (가장 정확한 지각 채널)
Length (길이): 시각적 왜곡이 없는 속성으로, 위치 다음으로 중요한 2 차적 단서로 사용됩니다.
Pattern (패턴): 범례와 데이터를 연결하여 카테고리를 구분합니다. 시각적 라벨 매핑 능력을 평가합니다.
Extract (추출): 명시적으로 표시된 수치 값을 읽는 작업입니다.

B. 사고 분해 (Decomposition-of-Thought, DoT) 프롬프트 전략

기존의 CoT 와 차별화된 DoT 전략을 도입하여 복잡한 시각 질문을 지각 (Perception) 단계와 논리 (Logic) 단계로 순차적으로 분해합니다.

질문 분해 (Question Decomposition): 복잡한 질문을 하위 질문들로 나눕니다. 이때 지각 지향적 하위 질문 (Perception-oriented sub-questions) 을 먼저 생성하고, 그 다음 논리 지향적 하위 질문 (Logic-oriented sub-questions) 을 생성하도록 강제합니다.
- 예시: "가장 높은 막대의 값과 가장 낮은 막대의 값 차이를 계산하라" $\rightarrow$ 1) 가장 높은 막대의 값은 무엇인가? (지각) $\rightarrow$ 2) 가장 낮은 막대의 값은 무엇인가? (지각) $\rightarrow$ 3) 두 값의 차이를 계산하라 (논리).
문제 해결 (Problem Solving): 생성된 하위 질문들에 대해 이미지와 이전 맥락을 기반으로 순차적으로 중간 답변을 생성하고, 이를 누적하여 최종 답변을 도출합니다.

C. 데이터셋 구축 (VisDoTQA)

제안된 프레임워크를 기반으로 Pew Research, Statista, OECD 등 다양한 출처의 16,167 개 차트 이미지를 활용하여 VisDoTQA 데이터셋을 구축했습니다. 이 데이터셋은 4 가지 지각 작업과 DoT 프롬프트를 결합하여 생성된 약 33 만 개의 질문 - 답변 쌍을 포함하며, 모델이 시각적 요소를 먼저 파악한 후 논리적 추론을 수행하도록 학습시킵니다.

3. 주요 기여 (Key Contributions)

지각 이론의 공식화: 그래픽 지각 이론에 기반한 4 가지 핵심 지각 작업을 정의하여, LVLM 이 데이터 시각화를 인간처럼 해독하는 모델링의 기초를 마련했습니다.
DoT 전략 도입: 복잡한 질문을 '지각'과 '논리' 단계로 분리하여 인간과 유사한 시각적 해석을 가능하게 하는 새로운 프롬프트 전략을 제시했습니다.
지각 기반 데이터셋 구축: 지각 작업과 DoT 프롬프트를 결합한 대규모 학습 데이터셋 (VisDoTQA) 을 구축하여 차트 이해, 시각 - 언어 그라운딩, 구성적 추론을 가능하게 했습니다.
SOTA 성능 달성: 제안된 프레임워크로 미세 조정된 모델이 다양한 벤치마크에서 최첨단 (SOTA) 성능을 달성함을 입증했습니다.

4. 실험 결과 (Results)

InternVL2.5 모델을 VisDoTQA 로 미세 조정한 결과, 다음과 같은 성과를 거두었습니다.

ChartQA: 기존 InternVL 대비 +11.2% 향상 (Human split 기준 +14.2% 향상). GPT-4o 및 Gemini-Flash-2.0 과 유사하거나 더 나은 성능을 기록했습니다.
ChartQAPro (더 어려운 벤치마크): Fact-checking, Multi-choice, Hypothetical 추론 등 다양한 난이도의 작업에서 GPT-4o 를 능가하거나 추월하는 성능을 보였습니다.
VisDoTQA (새로운 벤치마크): 제안된 프레임워크에 최적화된 이 벤치마크에서 평균 정확도가 +33.2% 향상되어 GPT-4o 보다 19.4% 높은 성능을 기록했습니다. 특히 Position (+29.1%), Pattern (+42.0%), Extract (+49.6%) 작업에서 큰 개선을 보였습니다.
일반화 능력 (Zero-shot): 차트가 없는 일반 도메인 VQA 벤치마크 (POPE, MMMU) 에서도 DoT 프롬프트를 적용했을 때 기존 CoT 대비 성능이 향상되었습니다. 이는 DoT 전략이 차트 특화 전략을 넘어 일반적인 시각 추론에도 유효함을 시사합니다.
효율성: ChartGemma 나 ECD 와 같은 기존 데이터 증강/합성 파이프라인보다 훨씬 적은 양의 학습 데이터 (7.4K vs 163K/320K) 로 더 우수한 성능을 달성했습니다.

5. 의의 및 결론 (Significance)

시각적 그라운딩의 중요성 강조: 본 연구는 LVLM 의 성능 병목이 추론 능력 자체가 아니라, 시각적 요소를 정확하게 감지하고 의미와 연결하는 '그라운딩' 능력에 있음을 명확히 지적했습니다.
해석 가능한 추론: DoT 전략은 모델이 어떻게 답을 도출했는지 단계별 추론 경로를 명확히 보여주어, 실패 사례의 원인을 분석하고 모델의 신뢰성을 높이는 데 기여합니다.
범용성: 지각과 논리를 분리하는 전략은 차트 이해뿐만 아니라 자연 이미지, 학술적 시각 자료 등 다양한 시각적 추론 작업에 적용 가능한 범용적인 접근법으로 입증되었습니다.

결론적으로 VisDoT 는 인간의 시각적 지각 원리를 모델 학습에 체계적으로 통합함으로써, 기존 LVLM 이 겪던 시각적 착각과 추론 오류를 획기적으로 줄이고 해석 가능한 고성능 시각 - 언어 추론을 실현한 획기적인 프레임워크입니다.

VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought