VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

이 논문은 시각적 토큰의 주의력 상실을 방지하고 추론을 시각적 맥락에 효과적으로 고정시키기 위해 의미적으로 관련성 있으면서도 다양한 시각적 토큰 코어셋을 재주입하는 'VisRef' 프레임워크를 제안하여, 추가적인 강화학습 미세조정 없이도 멀티모달 대형 추론 모델의 테스트 시간 확장 성능을 획기적으로 향상시킵니다.

Soumya Suvra Ghosal, Youngeun Kim, Zhuowei Li, Ritwick Chaudhry, Linghan Xu, Hongjing Zhang, Jakub Zablocki, Yifan Xing, Qin Zhang

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 문제: "생각할수록 그림이 흐려지는 AI 가이드"

상상해 보세요. 아주 똑똑한 AI 가이드가 있습니다. 이 가이드는 그림을 보고 수학 문제를 풀거나, 복잡한 도표를 해석하는 일을 합니다.

하지만 최근 연구에서 이상한 현상이 발견되었습니다.

"AI 가 문제를 풀려고 '생각 (추론)'을 너무 길게 하면, 정작 중요한 '그림'을 잊어버린다는 거예요."

  • 비유: 가이드가 그림을 처음 봤을 때는 "아, 저기 빨간 차가 있네!"라고 정확히 봤습니다. 하지만 "생각해 봐야지... 왜 빨간 차가 있을까? 아마... 어? 잠깐, 차가 왜 여기 있지?..."라고 생각을 너무 길게 이어가면, 머릿속에서 그림은 점점 흐려지고, 오직 글자 (이론) 만 믿고 엉뚱한 결론을 내리게 됩니다.
  • 결과: 그림이 중요한 문제일수록, AI 가 생각할수록 오히려 실수가 늘어납니다.

💡 해결책: VisRef (시각적 재초점)

이 문제를 해결하기 위해 연구진들은 **'VisRef'**라는 기술을 개발했습니다. 이 기술은 AI 를 다시 훈련시키지 않고도, 생각하는 도중에 AI 가 그림을 다시 보게 해줍니다.

🔄 비유: "수업 중 선생님이 다시 칠판을 가리키다"

  1. 기존 방식 (기존 AI):

    • 학생 (AI) 이 칠판 (그림) 을 한 번 보고는, 책상 (텍스트) 에 앉아 혼자 생각에 잠깁니다.
    • 생각할수록 칠판의 내용은 기억에서 사라지고, 책상 위 글자만 보게 됩니다.
  2. VisRef 방식 (우리의 방법):

    • 학생이 생각하다가 "어? 이 부분이 헷갈리는군"이라고 생각할 때, 선생님이 칠판의 중요한 부분만 잘라내어 학생 책상 위에 다시 붙여줍니다.
    • 학생은 이 잘라낸 그림 조각을 보고 "아, 맞아! 저게 핵심이었어!"라고 깨닫고 다시 생각을 이어갑니다.
    • 이 과정을 생각이 끝날 때까지 반복합니다.

🔍 VisRef 가 어떻게 작동할까요? (두 가지 핵심 원리)

이 기술은 두 가지 지혜를 담고 있습니다.

1. "모든 걸 다 보여줄 순 없으니, '핵심'만 골라줘" (DPP 알고리즘)

  • 그림에는 수천 개의 작은 점 (픽셀) 이 있습니다. 생각할 때마다 그림 전체를 다시 보여주면 AI 가 너무 바빠져서 오히려 느려집니다.
  • VisRef 는 현재 고민 중인 문제와 가장 관련이 있으면서도, 서로 중복되지 않는 '핵심 조각'들만 골라냅니다.
  • 비유: 요리할 때 모든 재료를 다 넣는 게 아니라, 맛을 결정하는 핵심 향신료 몇 가지만 골라 넣는 것과 같습니다.

2. "너무 오래 생각하지 말고, 확신이 들면 멈춰" (자동 종료)

  • AI 가 계속 생각하다 보면, 오히려 헷갈려서 엉뚱한 답을 낼 수 있습니다 (Overthinking).
  • VisRef 는 AI 가 "이제 답이 확실해!"라고 느낄 때 (통계적 확신이 높을 때) 스스로 생각을 멈추고 답을 내게 합니다.

🏆 결과는 어떨까요?

이 기술을 적용한 결과, AI 는 다음과 같은 변화를 보였습니다.

  • 그림을 잊지 않음: 생각할수록 그림이 흐려지는 현상이 사라졌습니다.
  • 정확도 상승: 수학 문제, 차트 해석, 복잡한 그림 분석 등에서 기존 방법보다 최대 6.4% 까지 정확도가 올라갔습니다.
  • 훈련 불필요: AI 를 다시 가르칠 필요 없이, 이미 훈련된 AI 에 바로 적용할 수 있습니다. (플러그인처럼 꽂으면 됩니다!)

📝 한 줄 요약

**"생각이 길어질수록 그림을 잊어버리는 AI 에게, 생각할 때마다 '중요한 그림 조각'을 다시 보여주고 '적절한 때'에 멈추게 하여, 그림을 보며 논리적으로 생각하는 능력을 되살린 기술"**입니다.

이 기술은 AI 가 인간의 문제 해결 방식 (그림을 보며 생각하다가 다시 그림을 확인하는 것) 을 더 잘 모방하도록 도와줍니다.