Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 문제: "여러 장의 사진을 볼 때 AI 의 시선이 산만해진다"

상상해 보세요. 친구가 6 장의 사진을 보여주고 "이 중에서 자동차가 몇 대 보이니?"라고 물었습니다.

일반적인 AI(기존 모델) 는 이 질문을 받으면 다음과 같은 실수를 합니다:

산만한 시선 (Diffuse Pulses): 2 번 사진을 보고 설명할 때, 시선이 2 번 사진에만 집중되지 않고 1 번부터 6 번까지 모든 사진을 동시에 훑어봅니다. 마치 여러 개의 TV 채널을 한눈에 보려고 하다가 어떤 채널의 소리가 들리는지 구별하지 못하는 상황입니다.
순서 편향 (Positional Bias): AI 는 사진의 순서 때문에 1 번이나 2 번 사진에 더 많은 관심을 둡니다. 실제 문제와 상관없이 "앞에 있는 게 중요할 거야"라고 착각하는 것입니다.

결과: AI 는 "2 번 사진에 차가 있네!"라고 말하면서도, 실제로는 1 번 사진의 차를 보고 있거나, 3 번 사진의 차를 2 번 사진에 있는 것처럼 착각합니다. (이걸 '이미지 정체성 혼동'이라고 합니다.)

💡 해결책: "PulseFocus (펄스 포커스)" - AI 에게 '작업 계획'을 세우게 하기

저자들은 AI 를 다시 교육시키는 대신, 생각하는 순서 (Chain-of-Thought) 를 강제하는 방법을 고안했습니다. 이를 **'PulseFocus'**라고 부릅니다.

이 방법은 AI 에게 다음과 같은 규칙적인 대화 패턴을 따르도록 합니다:

1. 단계 1: 계획 세우기 ()

"자, 이제 5 번 사진을 자세히 볼 거야. 다른 사진은 잠시 잊고."

2. 단계 2: 집중하기 (focus:I5)

(이때 AI 는 5 번 사진만 볼 수 있도록 마법 같은 필터를 씌웁니다.)
"오, 5 번 사진에는 흰색 차 1 대와 검은색 차 1 대가 있네. 총 2 대야."

3. 단계 3: 다음 계획

"좋아, 이제 6 번 사진을 볼까?"

이 과정이 반복되면서 AI 는 한 번에 한 장의 사진에만 집중하게 됩니다.

🛠️ 어떻게 작동할까요? (소프트 게이트)

이 기술의 핵심은 **'소프트 게이트 (Soft Attention Gating)'**입니다.

비유: AI 가 여러 장의 사진을 볼 때, **조명 (Attention)**을 켜고 끄는 스위치가 있습니다.
- 기존 방식: 모든 사진에 조명이 희미하게 켜져 있어 (산만함), 어떤 사진이 중요한지 구별하기 어렵습니다.
- PulseFocus 방식: "지금 5 번 사진을 볼 때"라는 명령이 떨어지면, 5 번 사진에는 강한 조명을 비추고, 나머지 사진에는 조명을 아주 어둡게 만듭니다.
- 하지만 완전히 끄지는 않습니다. (그래서 나중에 다른 사진과 비교할 때 기억해둘 수 있습니다.)

이렇게 하면 AI 는 **"지금 내가 보고 있는 건 5 번 사진이야"**라는 사실을 명확히 인지하게 되어, 실수가 줄어듭니다.

📊 결과는 어떨까요?

이 방법을 적용했을 때, 여러 장의 사진이 관련된 테스트 (BLINK, MuirBench 등) 에서 정답률이 눈에 띄게 향상되었습니다.

특히 자동차 세기, 사진 비교, 순서 찾기 같은 복잡한 작업에서 효과가 컸습니다.
중요한 점은 AI 를 다시 학습시킬 필요가 없다는 것입니다. 단순히 대화 방식을 바꾸고, 집중력을 조절하는 '스위치'만 켜면 되는 것입니다.

🎯 요약

이 논문은 **"AI 가 여러 장의 사진을 볼 때 시선이 흐트러지는 버그를 발견했고, '한 번에 하나씩 집중하라'는 규칙과 '조명 조절' 기술로 이를 해결했다"**는 내용입니다.

마치 수업 시간에 선생님이 "지금 이 책의 5 페이지만 보자"라고 지시하고, 다른 페이지는 덮어두게 하는 것처럼, AI 의 집중력을 인위적으로 높여주어 더 똑똑하게 만들었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

최근 InternVL3.5, Qwen3-VL, GPT-5 와 같은 추론 능력이 뛰어난 비전 - 언어 모델 (VLM) 은 단일 이미지 이해에서는 뛰어난 성능을 보이지만, 다중 이미지 (Multi-image) 추론 작업에서는 여전히 심각한 한계를 겪고 있습니다.

주요 문제점:
- 이미지 식별 혼동 (Image Identity Confusion): 여러 이미지 중 특정 이미지를 언급할 때 실제 해당 이미지에 집중하지 못하고 다른 이미지의 정보를 혼동합니다.
- 위치 편향 (Positional Bias): 작업의 관련성과 무관하게 입력된 이미지 중 앞에 위치한 이미지 (I1, I2 등) 에 과도하게 주의를 기울이는 경향이 있습니다.
- 할루시네이션: 이미지 간의 비교나 카운팅 시, 존재하지 않는 객체를 만들어내거나 잘못된 비교를 수행합니다.
근본 원인 분석: 저자들은 이러한 실패가 단순히 학습 데이터 부족이나 모델 용량 문제가 아니라, 생성 과정 (Chain-of-Thought, CoT) 중 발생하는 내부 주의 메커니즘 (Attention Dynamics) 의 결함에서 비롯됨을 발견했습니다.

2. 핵심 발견: 주의의 '맥박' 현상 (Key Findings)

저자들은 VLM 이 다중 이미지 CoT 를 생성하는 동안 관찰된 두 가지 주요 현상을 규명했습니다.

산만한 텍스트 - 이미지 주의 맥박 (Diffuse T2I Attention Pulses):
- 모델이 특정 이미지 (예: "이미지 2") 에 대해 논할 때, 해당 이미지의 토큰에 집중하는 대신 모든 이미지 토큰에 걸쳐 산발적이고 퍼진 (Diffuse) 주의 패턴을 보입니다.
- 이는 텍스트 생성 단계에서 시각적 정보가 제대로 필터링되지 않아 발생하며, 추론 오류와 직접적인 상관관계가 있습니다.
위치 기반 주의 편향 (Positional Attention Bias):
- 여러 샘플을 집계한 결과, 입력된 이미지의 순서와 관계없이 앞에 위치한 이미지들이 체계적으로 더 많은 주의 (Attention Mass) 를 받는 것이 확인되었습니다.

3. 제안 방법: PulseFocus (Methodology)

위와 같은 문제를 해결하기 위해 저자들은 학습이 필요 없는 (Training-free) 추론 시 개입 방법인 PulseFocus를 제안했습니다. 이 방법은 CoT 생성 구조를 재구성하고 주의 메커니즘을 제어합니다.

구조화된 인터리빙 프롬팅 (Interleaved Plan-Focus Prompting):
- 자유 형식의 CoT 대신, 모델이 반드시 **<plan>**과 <focus:I> 블록을 번갈아 가며 생성하도록 강제합니다.
- <plan> 블록: 다음에 확인할 이미지를 명시적으로 계획합니다 (예: "Next focus: I5").
- <focus:I> 블록: 계획된 특정 이미지 (또는 1~2 개) 에 대한 구체적인 관찰을 수행합니다.
- 이 구조는 이미지 간 임의의 점프 (Ad-hoc jumps) 를 방지하고 체계적인 순차적 추론을 유도합니다.
소프트 주의 게이팅 (Soft Attention Gating):
- <focus:I> 블록 내 토큰 생성 시, 모델의 주의 계산에 소프트 게이트를 적용합니다.
- 방식: 현재 집중 대상이 아닌 이미지 토큰에 대한 주의 점수 (Logits) 에 음수 값 ( $-\lambda$ ) 을 더하여 주의를 억제하지만, 완전히 차단하지는 않습니다.
- 효과: 참조된 이미지에 대한 주의가 선명해지면서 (Sharpening), 다른 이미지에 대한 혼란은 줄어들지만, 필요한 경우 이미지 간 비교 능력은 유지됩니다.
- 파라미터: 게이트 강도 $\lambda$ (기본값 2.0) 를 사용하여 조절합니다.
예산 제어 (Budget Control):
- 과도한 반복을 방지하기 위해 각 블록의 토큰 수와 전체 사이클 수에 제한을 둡니다.

4. 실험 결과 (Results)

저자들은 MuirBench, BLINK, Visual Haystacks 세 가지 다중 이미지 벤치마크에서 InternVL3.5 와 Qwen3-VL 모델군을 사용하여 PulseFocus 를 평가했습니다.

주요 성과:
- BLINK 벤치마크: InternVL3.5-8B 모델에서 **3.73% (50.45% → 54.18%)**의 정확도 향상.
- MuirBench 벤치마크: InternVL3.5-8B 모델에서 1.07%, Qwen3-VL-4B 에서 0.82% 향상.
- 세부 태스크: 객체 카운팅 (Counting), 이미지 식별 혼동 해결, 공간 관계 추론 (Spatial Relation), 다중 뷰 추론 (Multi-view Reasoning) 등에서 특히 큰 개선 효과를 보였습니다.
정성적 분석:
- 기존 모델은 특정 이미지를 언급할 때 다른 이미지의 색상 (주의 분포) 이 섞여 나타나 혼란을 보였으나, PulseFocus 를 적용하면 해당 이미지의 색상으로 일관되게 집중되어 주의 집중도가 명확히 향상됨을 시각적으로 확인했습니다.

5. 의의 및 기여 (Significance & Contributions)

새로운 현상 규명: 다중 이미지 추론 실패의 원인을 '학습 데이터'가 아닌 '생성 중 주의 메커니즘의 산만함과 위치 편향'으로 처음 체계적으로 분석하고 증명했습니다.
효율적인 해결책: 모델을 재학습 (Fine-tuning) 시키지 않고, 추론 시 (Inference-time) 프롬프트 구조와 주의 게이팅만 변경하여 성능을 획기적으로 개선할 수 있음을 입증했습니다.
미래 방향 제시: VLM 의 추론 능력을 향상시키기 위해 데이터 양을 늘리는 것뿐만 아니라, **주의 메커니즘을 인지하고 제어하는 추론 전략 (Attention-aware inference strategies)**이 중요한 방향임을 시사합니다.

6. 결론

이 논문은 VLM 이 다중 이미지를 처리할 때 겪는 '주의의 산만함'을 해결하기 위해 PulseFocus라는 새로운 프레임워크를 제안했습니다. 구조화된 계획 - 집중 (Plan-Focus) 루프와 소프트 주의 게이팅을 결합함으로써, 모델이 특정 이미지에 집중하고 체계적으로 비교할 수 있게 하여 다양한 벤치마크에서 일관된 성능 향상을 이끌어냈습니다. 이는 추론형 VLM 의 신뢰성을 높이는 중요한 기술적 진전으로 평가됩니다.