Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 는 그림을 보면서도 '눈'이 안 뜨인 상태였다?

지금까지의 AI(대형 언어 모델) 는 글자를 읽는 데는 천재였지만, 그림을 볼 때는 "눈을 감고" 추측만 하는 경우가 많았습니다.

예시: "그림 속의 작은 개가 무슨 색이지?"라고 물으면, AI 는 개가 어디 있는지 정확히 찾지 않고 "아마 갈색일 거야"라고 막연하게 대답하거나, 엉뚱한 개를 보고 색을 말해버립니다.
핵심 문제: 기존 시험지들은 AI 가 "정답"만 맞으면 됐지, **"어떤 부분을 보고 그 답을 냈는지 (근거)"**를 확인하지 않았습니다. 그래서 AI 가 운 좋게 맞춘 건지, 진짜로 봤는 건지 알 수 없었습니다.

2. 해결책 1: '트리벤치 (TreeBench)' - AI 의 눈과 두뇌를 동시에 시험하는 새로운 시험지

연구팀은 AI 가 그림을 보고 진짜로 '생각'하는지 확인하기 위해 **새로운 시험지 (TreeBench)**를 만들었습니다. 이 시험지는 세 가지 특징이 있습니다.

① 숨은 그림 찾기 (초미세 목표):
- 비유: 거대한 쇼핑몰 한복판에서 아주 작은 반지 하나를 찾아내라고 하는 거예요.
- 내용: 복잡한 배경 속에 아주 작은 사물 (예: 자전거에 달린 작은 병, 멀리 있는 표지판) 을 찾아내야 합니다.
② 증거 제시 (박스 그리기):
- 비유: 시험을 볼 때 답만 적는 게 아니라, **"정답이 이 박스 안에 있어요"**라고 사각형을 그려서 보여줘야 합니다.
- 내용: AI 가 답을 낼 때, 그 답의 근거가 되는 그림의 특정 부분을 박스로 표시하게 합니다. 이렇게 하면 AI 가 엉뚱한 곳을 보고 답을 냈는지 바로 알 수 있습니다.
② 두 번째 단계의 추론 (관계 파악):
- 비유: "저 개가 무슨 색이야?" (1 단계) 를 넘어서, "저 개가 저 사람 뒤에서 숨어있는지, 아니면 앞에 서 있는지?" (2 단계)를 물어보는 것입니다.
- 내용: 단순히 물체를 찾는 것을 넘어, 사물 간의 관계 (가림, 포함, 방향) 를 이해해야 합니다.

결과: 이 시험지는 매우 어렵습니다. 최신 AI(OpenAI-o3 등) 가 시험을 봤는데, 100 점 만점에 50~60 점밖에 못 받았습니다. 즉, AI 가 그림을 보고 '생각'하는 능력은 아직 초보 수준이라는 뜻입니다.

3. 해결책 2: '트리VGR' - AI 를 가르치는 새로운 훈련법

이제 이 어려운 시험지를 통과할 수 있도록 AI 를 훈련시키는 방법을 제안했습니다. 이를 TreeVGR이라고 부릅니다.

기존 방식: AI 가 답을 맞췄으면 "잘했어!" (점수 +1), 틀리면 "틀렸어" (점수 -1).
새로운 방식 (트리VGR):
1. 먼저 눈 뜨기: AI 가 답을 말하기 전에, **"어디를 보고 있는지 박스로 표시하라"**고 시킵니다.
2. 이중 감점/가점:
  - 정답 여부: 답이 맞아야 합니다.
  - 박스의 정확도: 표시한 박스가 진짜 물체와 얼마나 겹치는지 (IoU) 를 계산합니다.
  - 비유: 요리사에게 "스테이크를 잘라와"라고 했을 때, 단순히 고기를 가져오면 되는 게 아니라, **"정확히 고기만 잘라와야 하고 (정밀도), 고기 조각 하나도 빠뜨리면 안 된다 (재현율)"**고 엄격하게 가르치는 것입니다.
3. 보상 시스템: AI 가 박스를 정확히 그리고 논리적으로 답을 내면 큰 보상을 줍니다.

효과: 이 방법으로 훈련된 AI 는 기존 모델보다 훨씬 정확해졌습니다. 특히 작은 물체를 찾거나 복잡한 관계를 이해하는 능력이 크게 향상되었습니다.

4. 요약: 이 연구가 왜 중요한가요?

진짜 능력을 본다: AI 가 운으로 맞춘 게 아니라, 진짜로 그림을 보고 논리적으로 답했는지 **증거 (박스)**를 통해 확인할 수 있게 되었습니다.
AI 의 '눈'을 뜨게 했다: AI 가 그림 속의 작은 디테일까지 보고, 사물 간의 관계를 이해하도록 훈련하는 방법을 개발했습니다.
미래의 방향: 앞으로 AI 가 의료 영상 (작은 병변 찾기), 자율주행 (작은 보행자 감지), 보안 (밀집된 장면 분석) 등에서 더 똑똑하게 작동할 수 있는 기반을 마련했습니다.

한 줄 요약:

"AI 가 그림을 볼 때 눈을 감고 추측하는 게 아니라, 정확히 어디를 보고 있는지 박스로 표시하며 논리적으로 생각하게 만든 새로운 시험지와 훈련법을 개발했습니다."

Each language version is independently generated for its own context, not a direct translation.

이 논문은 대규모 멀티모달 모델 (LMM) 의 "이미지로 사고하기 (Thinking with Images)" 능력, 즉 **시각적 근거 기반 추론 (Visual Grounded Reasoning, VGR)**을 평가하고 향상시키기 위한 새로운 벤치마크 TreeBench와 학습 방법론 TreeVGR을 제안합니다.

주요 내용은 다음과 같습니다.

1. 문제 정의 (Problem)

기존의 대규모 언어 모델 (LLM) 은 텍스트 기반 추론에서는 뛰어난 성능을 보이지만, 복잡한 시각적 정보를 처리하는 작업에서는 언어 편향 (Language Bias) 으로 인해 한계를 보입니다. 최근 OpenAI-o3 와 같은 모델이 이미지 영역을 동적으로 참조하며 추론하는 방식을 도입했으나, 이를 종합적으로 평가할 수 있는 벤치마크가 부재했습니다.
기존 벤치마크 (POPE, MMBench, V* Bench 등) 는 다음과 같은 한계가 있습니다:

세밀한 시각적 인식 부족: 복잡한 장면 속 미세한 대상 식별 능력 평가 부재.
추론 과정의 불투명성: 최종 정답만 평가하여, 모델이 어떤 시각적 근거 (Bounding Box) 를 바탕으로 답을 도출했는지 추적 (Traceability) 할 수 없음.
2 차 추론 (Second-order Reasoning) 부재: 단순한 객체 위치 파악을 넘어, 객체 간의 상호작용, 공간적 포함 관계, 시점 변환 등 복잡한 논리적 추론을 평가하지 못함.

2. 방법론 (Methodology)

A. TreeBench (Traceable Evidence Evaluation Benchmark)

시각적 근거 기반 추론 능력을 평가하기 위해 설계된 진단용 벤치마크입니다.

데이터 구성: SA-1B 데이터셋에서 밀집된 객체가 포함된 고품질 이미지 1,000 장을 샘플링한 후, 8 명의 LMM 전문가가 수동으로 질문, 보기, 정답 및 목표 객체의 정확한 Bounding Box를 annotating 했습니다.
품질 관리: 3 단계의 품질 관리 (수동 검토, 모델 생성 질문 필터링, 교차 검증) 를 거쳐 최종 405 개의 고난도 VQA 쌍을 구성했습니다.
평가 항목:
1. 지각 (Perception): 속성 (Attributes), 재질 (Material), 물리적 상태 (Physical State), 객체 검색 (Object Retrieval), OCR 통합 QA 등 5 가지.
2. 추론 (Reasoning): 시점 변환 (Perspective Transform), 순서 (Ordering), 접촉 및 가림 (Contact & Occlusion), 공간적 포함 (Spatial Containment), 비교 (Comparison) 등 5 가지.
특징: 모든 질문에 대해 목표 객체의 Bounding Box 를 제공하여, 모델의 추론 과정이 올바른 시각적 근거에 기반했는지 **추적 가능 (Traceable)**하게 평가합니다.

B. TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning)

TreeBench 평가를 통해 발견된 한계를 극복하기 위해 제안된 학습 프레임워크입니다.

2 단계 학습 파이프라인:
1. 콜드 스타트 초기화 (Cold-Start Initialization): RL 학습 전, Bounding Box 가 포함된 추론 경로 (Chain-of-Thought) 를 학습하는 지도 미세 조정 (SFT) 단계를 거칩니다. 이는 모델이 추론 전에 관심 영역을 먼저 식별하도록 유도합니다.
2. 추적 가능 증거 기반 강화 학습 (RL with Traceable Evidence): 기존 정답 정확도 보상 ( $R_{acc}$ $R_{a cc}$ ) 과 포맷팅 보상 ( $R_{format}$ $R_{f or ma t}$ ) 에 더해, **이중 IoU 보상 (Dual IoU Reward, $R_{IoU}$ $R_{I o U}$ )**을 도입했습니다.
  - Recall Term: 모든 정답 Bounding Box 가 예측된 박스에 매칭되도록 보장.
  - Precision Term: 예측된 박스가 정답 박스와 매칭되도록 보장 (불필요한 박스 나열 방지).
  - 이 보상 구조를 통해 모델이 정확한 위치 파악과 논리적 추론을 동시에 학습하도록 유도합니다.

3. 주요 기여 (Key Contributions)

TreeBench 벤치마크 개발: "이미지로 사고하기" 능력을 평가하기 위한 첫 번째 종합 벤치마크로, 추적 가능한 증거 (Bounding Box) 와 2 차 추론 능력을 포함합니다.
TreeVGR 학습 방법론 제안: 강화 학습 (RL) 에 추적 가능한 시각적 증거 (Bounding Box) 를 명시적으로 감독 (Supervise) 하는 새로운 보상 설계를 통해, 설명 가능하고 정확한 추론 경로를 확보했습니다.
성능 검증: 오픈소스 모델 (Qwen2.5-VL-7B) 을 기반으로 TreeVGR 을 학습시켰을 때, 기존 벤치마크 (V* Bench, MME-RealWorld) 와 TreeBench 에서 모두 획기적인 성능 향상을 보였습니다.

4. 실험 결과 (Results)

TreeBench 성능: 현재 가장 강력한 모델들조차 TreeBench 에서 60% 미만의 정확도를 기록했습니다.
- OpenAI-o3: 54.87%
- Gemini-2.5-Pro: 54.6%
- TreeVGR-7B (Qwen2.5-VL-7B 기반): 50.4% (기저 모델 대비 +13.4%p 향상).
- TreeVGR-7B 는 78B 파라미터 규모의 InternVL3-78B 와 유사한 성능을 보이며, 시각적 근거 기반 추론 파이프라인의 유효성을 입증했습니다.
다른 벤치마크 성능:
- V* Bench: +16.8%p 향상 (91.1 점).
- MME-RealWorld-Lite: +12.6%p 향상 (54.9 점).
분석 결과: 위치 정확도 (mIoU) 와 전체 성능 간의 양의 상관관계가 확인되었으며, 특히 '시각적 근거'가 명확할 때 모델의 추론 성능이 크게 향상됨을 보였습니다.

5. 의의 (Significance)

이 연구는 멀티모달 모델이 단순히 이미지를 '보고' 답을 맞추는 것을 넘어, 구체적인 시각적 증거를 기반으로 논리적으로 사고하는 능력을 평가하고 강화하는 새로운 기준을 제시했습니다.

평가의 투명성: Bounding Box 를 통한 추적 가능한 평가는 모델의 오류 원인을 진단 (예: 질문 오해 vs 객체 위치 파악 실패) 하는 데 필수적입니다.
학습 패러다임 전환: 최종 정답만 보상하는 기존 RL 방식에서, 추론 과정의 각 단계 (지역화) 를 보상하는 방식으로 전환함으로써, 모델의 신뢰성과 해석 가능성을 높였습니다.
미래 방향: 복잡한 현실 세계의 밀집된 시각 정보를 처리하고, 시점 변환 등 고급 추론 능력을 갖춘 차세대 LMM 개발의 토대를 마련했습니다.

요약하자면, 이 논문은 TreeBench를 통해 현재 모델들의 한계를 드러냈고, TreeVGR을 통해 시각적 근거를 기반으로 한 정확한 추론 능력을 강화하는 효과적인 학습 전략을 제시함으로써, 멀티모달 추론 연구의 새로운 지평을 열었습니다.

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

1. 문제: AI 는 그림을 보면서도 '눈'이 안 뜨인 상태였다?

2. 해결책 1: '트리벤치 (TreeBench)' - AI 의 눈과 두뇌를 동시에 시험하는 새로운 시험지

3. 해결책 2: '트리VGR' - AI 를 가르치는 새로운 훈련법

4. 요약: 이 연구가 왜 중요한가요?

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

A. TreeBench (Traceable Evidence Evaluation Benchmark)

B. TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 (Significance)

유사한 논문

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers