Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

이 논문은 복잡한 시각적 추론 능력을 평가하기 위한 'TreeBench' 벤치마크와 강화 학습 기반의 'TreeVGR' 학습 패러다임을 제안하여, 추적 가능한 증거를 통한 시각적 추론의 정확성과 설명 가능성을 크게 향상시켰음을 보여줍니다.

Haochen Wang, Xiangtai Li, Zilong Huang, Anran Wang, Jiacong Wang, Tao Zhang, Jiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 는 그림을 보면서도 '눈'이 안 뜨인 상태였다?

지금까지의 AI(대형 언어 모델) 는 글자를 읽는 데는 천재였지만, 그림을 볼 때는 "눈을 감고" 추측만 하는 경우가 많았습니다.

  • 예시: "그림 속의 작은 개가 무슨 색이지?"라고 물으면, AI 는 개가 어디 있는지 정확히 찾지 않고 "아마 갈색일 거야"라고 막연하게 대답하거나, 엉뚱한 개를 보고 색을 말해버립니다.
  • 핵심 문제: 기존 시험지들은 AI 가 "정답"만 맞으면 됐지, **"어떤 부분을 보고 그 답을 냈는지 (근거)"**를 확인하지 않았습니다. 그래서 AI 가 운 좋게 맞춘 건지, 진짜로 봤는 건지 알 수 없었습니다.

2. 해결책 1: '트리벤치 (TreeBench)' - AI 의 눈과 두뇌를 동시에 시험하는 새로운 시험지

연구팀은 AI 가 그림을 보고 진짜로 '생각'하는지 확인하기 위해 **새로운 시험지 (TreeBench)**를 만들었습니다. 이 시험지는 세 가지 특징이 있습니다.

  • ① 숨은 그림 찾기 (초미세 목표):
    • 비유: 거대한 쇼핑몰 한복판에서 아주 작은 반지 하나를 찾아내라고 하는 거예요.
    • 내용: 복잡한 배경 속에 아주 작은 사물 (예: 자전거에 달린 작은 병, 멀리 있는 표지판) 을 찾아내야 합니다.
  • ② 증거 제시 (박스 그리기):
    • 비유: 시험을 볼 때 답만 적는 게 아니라, **"정답이 이 박스 안에 있어요"**라고 사각형을 그려서 보여줘야 합니다.
    • 내용: AI 가 답을 낼 때, 그 답의 근거가 되는 그림의 특정 부분을 박스로 표시하게 합니다. 이렇게 하면 AI 가 엉뚱한 곳을 보고 답을 냈는지 바로 알 수 있습니다.
  • ② 두 번째 단계의 추론 (관계 파악):
    • 비유: "저 개가 무슨 색이야?" (1 단계) 를 넘어서, "저 개가 저 사람 뒤에서 숨어있는지, 아니면 앞에 서 있는지?" (2 단계)를 물어보는 것입니다.
    • 내용: 단순히 물체를 찾는 것을 넘어, 사물 간의 관계 (가림, 포함, 방향) 를 이해해야 합니다.

결과: 이 시험지는 매우 어렵습니다. 최신 AI(OpenAI-o3 등) 가 시험을 봤는데, 100 점 만점에 50~60 점밖에 못 받았습니다. 즉, AI 가 그림을 보고 '생각'하는 능력은 아직 초보 수준이라는 뜻입니다.

3. 해결책 2: '트리VGR' - AI 를 가르치는 새로운 훈련법

이제 이 어려운 시험지를 통과할 수 있도록 AI 를 훈련시키는 방법을 제안했습니다. 이를 TreeVGR이라고 부릅니다.

  • 기존 방식: AI 가 답을 맞췄으면 "잘했어!" (점수 +1), 틀리면 "틀렸어" (점수 -1).
  • 새로운 방식 (트리VGR):
    1. 먼저 눈 뜨기: AI 가 답을 말하기 전에, **"어디를 보고 있는지 박스로 표시하라"**고 시킵니다.
    2. 이중 감점/가점:
      • 정답 여부: 답이 맞아야 합니다.
      • 박스의 정확도: 표시한 박스가 진짜 물체와 얼마나 겹치는지 (IoU) 를 계산합니다.
      • 비유: 요리사에게 "스테이크를 잘라와"라고 했을 때, 단순히 고기를 가져오면 되는 게 아니라, **"정확히 고기만 잘라와야 하고 (정밀도), 고기 조각 하나도 빠뜨리면 안 된다 (재현율)"**고 엄격하게 가르치는 것입니다.
    3. 보상 시스템: AI 가 박스를 정확히 그리고 논리적으로 답을 내면 큰 보상을 줍니다.

효과: 이 방법으로 훈련된 AI 는 기존 모델보다 훨씬 정확해졌습니다. 특히 작은 물체를 찾거나 복잡한 관계를 이해하는 능력이 크게 향상되었습니다.

4. 요약: 이 연구가 왜 중요한가요?

  • 진짜 능력을 본다: AI 가 운으로 맞춘 게 아니라, 진짜로 그림을 보고 논리적으로 답했는지 **증거 (박스)**를 통해 확인할 수 있게 되었습니다.
  • AI 의 '눈'을 뜨게 했다: AI 가 그림 속의 작은 디테일까지 보고, 사물 간의 관계를 이해하도록 훈련하는 방법을 개발했습니다.
  • 미래의 방향: 앞으로 AI 가 의료 영상 (작은 병변 찾기), 자율주행 (작은 보행자 감지), 보안 (밀집된 장면 분석) 등에서 더 똑똑하게 작동할 수 있는 기반을 마련했습니다.

한 줄 요약:

"AI 가 그림을 볼 때 눈을 감고 추측하는 게 아니라, 정확히 어디를 보고 있는지 박스로 표시하며 논리적으로 생각하게 만든 새로운 시험지와 훈련법을 개발했습니다."