VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

Each language version is independently generated for its own context, not a direct translation.

🎨 문제: "생각할수록 그림이 흐려지는 AI 가이드"

상상해 보세요. 아주 똑똑한 AI 가이드가 있습니다. 이 가이드는 그림을 보고 수학 문제를 풀거나, 복잡한 도표를 해석하는 일을 합니다.

하지만 최근 연구에서 이상한 현상이 발견되었습니다.

"AI 가 문제를 풀려고 '생각 (추론)'을 너무 길게 하면, 정작 중요한 '그림'을 잊어버린다는 거예요."

비유: 가이드가 그림을 처음 봤을 때는 "아, 저기 빨간 차가 있네!"라고 정확히 봤습니다. 하지만 "생각해 봐야지... 왜 빨간 차가 있을까? 아마... 어? 잠깐, 차가 왜 여기 있지?..."라고 생각을 너무 길게 이어가면, 머릿속에서 그림은 점점 흐려지고, 오직 글자 (이론) 만 믿고 엉뚱한 결론을 내리게 됩니다.
결과: 그림이 중요한 문제일수록, AI 가 생각할수록 오히려 실수가 늘어납니다.

💡 해결책: VisRef (시각적 재초점)

이 문제를 해결하기 위해 연구진들은 **'VisRef'**라는 기술을 개발했습니다. 이 기술은 AI 를 다시 훈련시키지 않고도, 생각하는 도중에 AI 가 그림을 다시 보게 해줍니다.

🔄 비유: "수업 중 선생님이 다시 칠판을 가리키다"

기존 방식 (기존 AI):
- 학생 (AI) 이 칠판 (그림) 을 한 번 보고는, 책상 (텍스트) 에 앉아 혼자 생각에 잠깁니다.
- 생각할수록 칠판의 내용은 기억에서 사라지고, 책상 위 글자만 보게 됩니다.
VisRef 방식 (우리의 방법):
- 학생이 생각하다가 "어? 이 부분이 헷갈리는군"이라고 생각할 때, 선생님이 칠판의 중요한 부분만 잘라내어 학생 책상 위에 다시 붙여줍니다.
- 학생은 이 잘라낸 그림 조각을 보고 "아, 맞아! 저게 핵심이었어!"라고 깨닫고 다시 생각을 이어갑니다.
- 이 과정을 생각이 끝날 때까지 반복합니다.

🔍 VisRef 가 어떻게 작동할까요? (두 가지 핵심 원리)

이 기술은 두 가지 지혜를 담고 있습니다.

1. "모든 걸 다 보여줄 순 없으니, '핵심'만 골라줘" (DPP 알고리즘)

그림에는 수천 개의 작은 점 (픽셀) 이 있습니다. 생각할 때마다 그림 전체를 다시 보여주면 AI 가 너무 바빠져서 오히려 느려집니다.
VisRef 는 현재 고민 중인 문제와 가장 관련이 있으면서도, 서로 중복되지 않는 '핵심 조각'들만 골라냅니다.
비유: 요리할 때 모든 재료를 다 넣는 게 아니라, 맛을 결정하는 핵심 향신료 몇 가지만 골라 넣는 것과 같습니다.

2. "너무 오래 생각하지 말고, 확신이 들면 멈춰" (자동 종료)

AI 가 계속 생각하다 보면, 오히려 헷갈려서 엉뚱한 답을 낼 수 있습니다 (Overthinking).
VisRef 는 AI 가 "이제 답이 확실해!"라고 느낄 때 (통계적 확신이 높을 때) 스스로 생각을 멈추고 답을 내게 합니다.

🏆 결과는 어떨까요?

이 기술을 적용한 결과, AI 는 다음과 같은 변화를 보였습니다.

그림을 잊지 않음: 생각할수록 그림이 흐려지는 현상이 사라졌습니다.
정확도 상승: 수학 문제, 차트 해석, 복잡한 그림 분석 등에서 기존 방법보다 최대 6.4% 까지 정확도가 올라갔습니다.
훈련 불필요: AI 를 다시 가르칠 필요 없이, 이미 훈련된 AI 에 바로 적용할 수 있습니다. (플러그인처럼 꽂으면 됩니다!)

📝 한 줄 요약

**"생각이 길어질수록 그림을 잊어버리는 AI 에게, 생각할 때마다 '중요한 그림 조각'을 다시 보여주고 '적절한 때'에 멈추게 하여, 그림을 보며 논리적으로 생각하는 능력을 되살린 기술"**입니다.

이 기술은 AI 가 인간의 문제 해결 방식 (그림을 보며 생각하다가 다시 그림을 확인하는 것) 을 더 잘 모방하도록 도와줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경:
최근 대규모 추론 모델 (Large Reasoning Models, LRMs) 은 체인 오브 씽킹 (Chain-of-Thought, CoT) 을 확장하여 복잡한 추론 과제를 해결하는 데 뛰어난 성과를 보이고 있습니다. 특히 멀티모달 대규모 추론 모델 (MLRMs) 은 텍스트와 이미지를 결합하여 수학, 과학, 일반적 이해 등 다양한 분야에서 높은 성능을 보입니다.

핵심 문제:
하지만 비전 (Vision) 에 의존하는 작업에서 테스트 시간 계산 (Test-time Compute) 을 늘려 추론 과정을 길게 확장할수록 모델의 성능이 저하되는 현상이 관찰됩니다.

시각적 토큰의 희석 (Visual Token Dilution): 추론 체인이 길어질수록 모델의 주의를 시각적 토큰 (이미지 정보) 에서 점차 멀어지게 되어, 실제 이미지 내용보다는 텍스트적 선입견 (Textual Priors) 에만 의존하게 됩니다.
기존 방법의 한계:
- 강화학습 (RL) 기반 미세 조정: 모델이 추론 중 시각 정보를 다시 참조하도록 학습시키는 방법 (Look-Back 등) 은 효과적이지만, 대규모 데이터 생성과 정책 최적화가 필요하여 계산 비용이 매우 높고 확장성이 떨어집니다.
- 기존 테스트 시간 확장 (Test-time Scaling): 텍스트 기반의 자기 성찰 (Self-reflection) 을 통해 추론을 늘리는 방법은 시각적 근거 (Grounding) 를 유지하지 못해 비전 의존 작업에서는 효과가 제한적입니다.

연구 질문:
"모델을 재학습 (Fine-tuning) 시키지 않고, 오직 테스트 시간에만 적응적으로 시각적 근거를 복원하여 추론 성능을 향상시킬 수 있는가?"

2. 제안 방법: VisRef (Methodology)

저자들은 VisRef (Visual Refocusing while Thinking) 라는 새로운 프레임워크를 제안합니다. 이는 재학습 없이 (Training-free) 추론 단계에서 시각 정보를 동적으로 재주입 (Re-injection) 하는 방법론입니다.

핵심 아이디어

모델이 추론을 진행하는 각 단계에서, 현재 추론 맥락과 의미적으로 관련이 있으면서도 이미지의 전역적 특징을 다양하게 대표하는 시각적 토큰의 코어셋 (Coreset) 을 선택하여 다시 입력합니다. 이는 인간이 문제를 풀 때 이미지를 다시 보며 추론을 검증하는 전략을 모방한 것입니다.

기술적 구성 요소

적응형 시각 토큰 선택 (Adaptive Visual Token Selection):
- 모든 시각 토큰을 매번 재주입하는 것은 계산 비용이 너무 큽니다. 따라서 각 추론 단계 $k$ 에서 최적의 토큰 부분집합 $V_k$ 를 선택해야 합니다.
- 결정론적 포인트 프로세스 (Determinantal Point Processes, DPP) 활용:
  - 관련성 (Relevance): 현재 텍스트 추론 상태 $z_k$ 와 시각 토큰 간의 정렬 (Alignment) 을 최대화합니다.
  - 다양성 (Diversity): 선택된 토큰들이 서로 중복되지 않고 이미지의 다양한 영역을 커버하도록 합니다.
  - 목적 함수: 커널 행렬의 행렬식 (Determinant) 을 최대화하여 관련성과 다양성을 동시에 최적화합니다.
  - 수식적으로, 텍스트 서브스페이스에 투영된 시각 토큰들의 기하학적 부피를 최대화하는 방식으로 구현됩니다.
- 효율성: NP-hard 문제인 조합 최적화를 해결하기 위해 Greedy 알고리즘을 사용하여 근사해를 구합니다.
적응형 종료 기준 (Adaptive Stopping Criterion):
- 무한히 추론을 계속하면 과적합 (Overthinking) 이나 성능 저하가 발생할 수 있습니다.
- 모델의 예측 확률 분포 엔트로피 (Entropy) 를 모니터링합니다.
- 엔트로피가 임계값 ( $\delta_{entropy}$ ) 이하로 떨어지면 모델이 충분히 확신한 것으로 간주하여 추론을 중단하고 최종 답을 생성합니다.
프레임워크 흐름:
- 입력 (이미지 + 텍스트) $\rightarrow$ 초기 추론 $\rightarrow$ DPP 기반 시각 토큰 선택 및 재주입 $\rightarrow$ 다음 추론 단계 $\rightarrow$ ... $\rightarrow$ 엔트로피 기준 충족 시 종료 및 최종 답변.

3. 주요 기여 (Key Contributions)

Training-free Visual Refocusing Framework: 모델 파라미터 수정이나 RL 미세 조정 없이, 추론 시간에만 시각 정보를 동적으로 재주입하여 시각적 근거를 유지하는 최초의 프레임워크 중 하나입니다.
DPP 기반 토큰 선택 메커니즘: 시각적 토큰 선택을 '관련성'과 '다양성'을 동시에 고려하는 최적화 문제로 정의하고, DPP 를 통해 이를 효율적으로 해결하는 수학적 기반을 제시했습니다.
광범위한 실험적 검증: 다양한 최신 MLRM 모델 (InternVL-3.5, Qwen3-VL, SAIL-VL2) 과 벤치마크 (MathVista, MM-Star, MathVision) 에서 기존 방법 (Standard Thinking, Textual Self-Reflection) 보다 일관되게 우수한 성능을 입증했습니다.

4. 실험 결과 (Results)

벤치마크 성능:
- MathVista: InternVL-3.5-8B 기준, 기존 추론 (ST) 대비 +5.4%, 텍스트 자기 성찰 (TSR) 대비 +5.4% 향상.
- MathVision: ST 대비 +4.5%, TSR 대비 +4.5% 향상.
- MM-Star: ST 대비 +4.8%, TSR 대비 +4.8% 향상.
- SAIL-VL2 모델에서는 MathVision 에서 ST 대비 7.5% 의 큰 폭의 향상을 보였습니다.
테스트 시간 확장 (Test-time Scaling):
- 고정된 계산 예산 (Token Budget) 하에서 여러 개의 병렬 추론 체인을 생성했을 때, VisRef 는 텍스트만 사용하는 병렬 추론 (Parallel Thinking) 보다 모든 예산 구간에서 더 높은 정확도를 기록했습니다.
학습 기반 방법과의 비교:
- RL 기반 미세 조정이 필요한 'Look-Back' 방법과 비교했을 때, VisRef 는 학습 없이도 경쟁력 있는 성능을 보였습니다.
- 더 나아가, Look-Back 과 VisRef 를 결합했을 때 가장 높은 성능을 기록하여 두 방법이 상호 보완적임을 증명했습니다.
추가 벤치마크 (TallyQA, RealWorldQA):
- 추가 실험에서도 VisRef 는 모든 모델에서 일관된 성능 향상을 보였으며, 특히 복잡한 객체 카운팅 및 실제 세계 시각 이해 과제에서 효과적이었습니다.

5. 의의 및 결론 (Significance)

실용성: VisRef 는 별도의 학습 데이터나 고비용의 RL 미세 조정이 필요하지 않아, 기존에 학습된 어떤 멀티모달 모델에도 즉시 적용 가능한 Plug-and-Play 솔루션입니다.
이론적 통찰: 추론 과정이 길어질수록 시각적 정보가 희석되는 현상을 해결하기 위해, 관련성 (Relevance) 과 다양성 (Diversity) 의 균형이 시각적 토큰 선택에 얼마나 중요한지를 DPP 를 통해 수학적으로 증명했습니다.
미래 방향: 이 연구는 테스트 시간 계산 (Test-time Compute) 을 확장할 때 단순히 텍스트 추론을 늘리는 것뿐만 아니라, 시각적 근거를 유지하는 메커니즘이 필수적임을 보여주었습니다. 이는 향후 더 강력하고 신뢰할 수 있는 멀티모달 추론 모델 개발의 중요한 방향성을 제시합니다.

요약하자면, VisRef는 모델이 "생각하는 동안 (While Thinking)" 시각 정보를 다시 집중하게 함으로써, 긴 추론 과정에서도 이미지 기반의 정확한 판단을 내릴 수 있도록 돕는 효율적이고 혁신적인 방법론입니다.