Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

이 논문은 추론형 비전 - 언어 모델이 다중 이미지 이해 작업에서 발생하는 산만하고 편향된 어텐션 패턴을 해결하기 위해, 추론 과정을 계획 및 집중 단계로 구조화하고 어텐션 게이트를 적용하는 훈련 없는 방법인 'PulseFocus'를 제안하여 주요 벤치마크에서 성능을 향상시켰음을 보여줍니다.

Chenjun Li

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 문제: "여러 장의 사진을 볼 때 AI 의 시선이 산만해진다"

상상해 보세요. 친구가 6 장의 사진을 보여주고 "이 중에서 자동차가 몇 대 보이니?"라고 물었습니다.

일반적인 AI(기존 모델) 는 이 질문을 받으면 다음과 같은 실수를 합니다:

  1. 산만한 시선 (Diffuse Pulses): 2 번 사진을 보고 설명할 때, 시선이 2 번 사진에만 집중되지 않고 1 번부터 6 번까지 모든 사진을 동시에 훑어봅니다. 마치 여러 개의 TV 채널을 한눈에 보려고 하다가 어떤 채널의 소리가 들리는지 구별하지 못하는 상황입니다.
  2. 순서 편향 (Positional Bias): AI 는 사진의 순서 때문에 1 번이나 2 번 사진에 더 많은 관심을 둡니다. 실제 문제와 상관없이 "앞에 있는 게 중요할 거야"라고 착각하는 것입니다.

결과: AI 는 "2 번 사진에 차가 있네!"라고 말하면서도, 실제로는 1 번 사진의 차를 보고 있거나, 3 번 사진의 차를 2 번 사진에 있는 것처럼 착각합니다. (이걸 '이미지 정체성 혼동'이라고 합니다.)


💡 해결책: "PulseFocus (펄스 포커스)" - AI 에게 '작업 계획'을 세우게 하기

저자들은 AI 를 다시 교육시키는 대신, 생각하는 순서 (Chain-of-Thought) 를 강제하는 방법을 고안했습니다. 이를 **'PulseFocus'**라고 부릅니다.

이 방법은 AI 에게 다음과 같은 규칙적인 대화 패턴을 따르도록 합니다:

1. 단계 1: 계획 세우기 ()

"자, 이제 5 번 사진을 자세히 볼 거야. 다른 사진은 잠시 잊고."

2. 단계 2: 집중하기 (focus:I5)

(이때 AI 는 5 번 사진만 볼 수 있도록 마법 같은 필터를 씌웁니다.)
"오, 5 번 사진에는 흰색 차 1 대와 검은색 차 1 대가 있네. 총 2 대야."

3. 단계 3: 다음 계획

"좋아, 이제 6 번 사진을 볼까?"

이 과정이 반복되면서 AI 는 한 번에 한 장의 사진에만 집중하게 됩니다.


🛠️ 어떻게 작동할까요? (소프트 게이트)

이 기술의 핵심은 **'소프트 게이트 (Soft Attention Gating)'**입니다.

  • 비유: AI 가 여러 장의 사진을 볼 때, **조명 (Attention)**을 켜고 끄는 스위치가 있습니다.
    • 기존 방식: 모든 사진에 조명이 희미하게 켜져 있어 (산만함), 어떤 사진이 중요한지 구별하기 어렵습니다.
    • PulseFocus 방식: "지금 5 번 사진을 볼 때"라는 명령이 떨어지면, 5 번 사진에는 강한 조명을 비추고, 나머지 사진에는 조명을 아주 어둡게 만듭니다.
    • 하지만 완전히 끄지는 않습니다. (그래서 나중에 다른 사진과 비교할 때 기억해둘 수 있습니다.)

이렇게 하면 AI 는 **"지금 내가 보고 있는 건 5 번 사진이야"**라는 사실을 명확히 인지하게 되어, 실수가 줄어듭니다.


📊 결과는 어떨까요?

이 방법을 적용했을 때, 여러 장의 사진이 관련된 테스트 (BLINK, MuirBench 등) 에서 정답률이 눈에 띄게 향상되었습니다.

  • 특히 자동차 세기, 사진 비교, 순서 찾기 같은 복잡한 작업에서 효과가 컸습니다.
  • 중요한 점은 AI 를 다시 학습시킬 필요가 없다는 것입니다. 단순히 대화 방식을 바꾸고, 집중력을 조절하는 '스위치'만 켜면 되는 것입니다.

🎯 요약

이 논문은 **"AI 가 여러 장의 사진을 볼 때 시선이 흐트러지는 버그를 발견했고, '한 번에 하나씩 집중하라'는 규칙과 '조명 조절' 기술로 이를 해결했다"**는 내용입니다.

마치 수업 시간에 선생님이 "지금 이 책의 5 페이지만 보자"라고 지시하고, 다른 페이지는 덮어두게 하는 것처럼, AI 의 집중력을 인위적으로 높여주어 더 똑똑하게 만들었습니다.