Enhancing Multi-Image Understanding through Delimiter Token Scaling

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "혼란스러운 회의실"과 "강력한 사회자"

1. 문제 상황: 여러 장의 사진을 한 번에 보면 AI 는 왜 헷갈릴까요?
마치 한 방에 사진 A, 사진 B, 사진 C가 동시에 펼쳐진 회의실이라고 상상해 보세요.
AI 는 이 모든 사진을 한꺼번에 보게 되는데, 문제는 어떤 정보가 어느 사진에 속하는지 구분이 안 된다는 것입니다.

예시: 사진 A 에는 '고양이'가 있고, 사진 B 에는 '개'가 있습니다.
AI 의 실수 (정보 누수): AI 가 "고양이는 어디 있니?"라고 물었을 때, 정답은 사진 A 여야 하는데, 사진 B 의 '개' 정보와 섞여서 "고양이와 개가 같이 있네?"라고 엉뚱한 대답을 하거나, 두 사진을 하나로 뭉개버립니다.
이를 논문에서는 **'크로스-이미지 정보 누수 (Cross-image Information Leakage)'**라고 부릅니다.

2. 기존 방법의 한계: "약한 구분선"
기존 AI 모델들은 사진을 구분하기 위해 사진 사이사이에 **'구분자 토큰 (Delimiter Token)'**이라는 특수한 부호를 넣었습니다.

비유: 회의실 바닥에 약한 테이프를 붙여 영역을 나눈 것과 같습니다.
하지만 이 테이프가 너무 약해서, AI 는 여전히 테이프를 넘나들며 정보를 섞어버립니다. "아, 여기는 사진 A 구나"라고 명확히 인지하지 못합니다.

3. 이 연구의 해결책: "강력한 사회자"를 세우다
이 연구팀은 그 약한 구분자 (테이프) 를 그냥 두지 않고, 그 위치의 **숨겨진 상태 (Hidden State) 를 '확대 (Scaling)'**했습니다.

비유: 약한 테이프 대신, **매우 강력하고 목소리가 큰 '사회자'**를 사진 사이사이에 세운 것입니다.
이 사회자는 "이건 사진 A! 저건 사진 B!"라고 큰 소리로 외치며, 사진 A 안의 정보들은 서로만 대화하게 하고, 사진 B 로 넘어가는 것을 막습니다.
기술적으로는 구분자 토큰의 숫자를 키워서, AI 가 그 토큰을 더 중요하게 여기게 만든 것입니다.

4. 결과: "명확한 분리"
이 방법을 적용하자 AI 는 놀라운 변화를 보였습니다.

사진 A의 정보는 사진 A 안에서만 깊게 이해하고, 사진 B의 정보는 사진 B 안에서만 처리합니다.
마치 회의실에서 각 그룹이 서로의 이야기를 방해받지 않고 집중해서 논의하는 것과 같습니다.
장점: AI 를 다시 가르치는 (학습) 비용이 전혀 들지 않고, 속도도 느려지지 않습니다. 그냥 "사회자"의 목소리만 키운 것뿐입니다.

💡 핵심 요약

문제: AI 는 여러 장의 사진을 볼 때, 사진들 사이의 정보가 섞여서 엉뚱한 답을 냅니다.
원인: 사진을 구분하는 '구분자'가 너무 약해서 정보를 막지 못합니다.
해결: 구분자의 역할을 **확대 (Scaling)**해서, 마치 강력한 벽이나 사회자처럼 작동하게 했습니다.
효과: 여러 장의 사진을 정확하게 구분해서 분석할 수 있게 되었고, 비용은 들지 않았습니다.

이 방법은 사진뿐만 아니라, 여러 개의 문서나 표를 분석할 때도 똑같이 적용되어 AI 가 정보를 더 똑똑하게 처리하게 해줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대규모 비전 - 언어 모델 (LVLMs) 은 단일 이미지 입력에서는 탁월한 성능을 보이지만, 여러 개의 이미지를 동시에 입력받을 경우 성능이 급격히 저하되는 현상이 발생합니다.

주요 원인: 기존 연구들은 이를 '교차 이미지 정보 누출 (Cross-image Information Leakage)' 현상으로 규정합니다. 즉, 모델이 서로 다른 이미지 간의 정보를 명확히 구분하지 못하고, 한 이미지의 정보가 다른 이미지의 맥락과 섞여 출력을 생성하는 문제입니다.
기존 접근법의 한계: 현재 LVLM 들은 각 이미지의 시작과 끝을 표시하는 **구분자 토큰 (Delimiter Tokens, 예: <|vision start|>, <|vision end|>)**을 사용합니다. 그러나 저자들의 분석에 따르면, 이러한 토큰이 존재하더라도 모델 내부의 어텐션 (Attention) 메커니즘이 이미지 간 경계를 완전히 차단하지 못해 정보 누출이 여전히 발생합니다.

2. 방법론 (Methodology)

저자들은 구분자 토큰의 동작 원리를 심층 분석하고, 이를 강화하는 단순하지만 효과적인 방법을 제안합니다.

A. 구분자 토큰의 분석 (Analysis of Delimiter Tokens)

속성 1 (Attention Absorption): $i$ 번째 이미지의 토큰들은 $i$ 번째 구분자 토큰으로부터 강한 어텐션을 받습니다. 이는 구분자 토큰이 해당 이미지의 '태그' 역할을 함을 의미합니다.
속성 2 (Intra-image Interaction Reinforcement): 구분자 토큰은 해당 이미지 내의 토큰들 간의 상호작용을 강화하는 '로컬 바이어스 (Localized Bias)' 역할을 합니다. 어텐션 출력 공식에서 구분자 토큰의 값 벡터 ( $v_d$ ) 가 해당 이미지 내 모든 토큰에 공통적으로 더해지는 항으로 작용하여 이미지 내부의 응집력을 높입니다.
현황: 기존 모델에서는 이러한 구분자 토큰의 영향력이 충분하지 않아, 이미지 간 불필요한 어텐션 (누출) 이 발생합니다.

B. 제안된 방법: 구분자 토큰 히든 상태 스케일링 (Delimiter Token Hidden State Scaling)

저자들은 구분자 토큰의 역할을 강화하기 위해 히든 상태 (Hidden State) 에 스케일링 인자 ( $\lambda > 1$ ) 를 곱하는 방법을 제안합니다.

수식: $h^{(l)*}_t = \lambda \cdot h^{(l)}_t$ (단, $t$ 가 구분자 토큰일 때)
작동 원리:
1. 교차 이미지 상호작용 감소: 구분자 토큰의 히든 상태를 증폭시키면 Softmax 정규화 효과로 인해 다른 이미지의 토큰들이 받는 어텐션 비율이 상대적으로 감소합니다.
2. 이미지 내 상호작용 유지: 동시에, 해당 이미지의 토큰들이 자신의 구분자 토큰에 더 강하게 어텐션을 집중하게 되어, 이미지 내부의 응집력 (Tagging effect) 은 유지되거나 오히려 강화됩니다.
장점: 이 방법은 모델의 구조를 변경하거나 어텐션 메커니즘 자체를 수정하지 않으므로, FlashAttention과 같은 최적화된 커널과 호환되며 추가적인 추론 비용이 들지 않습니다.

3. 주요 기여 및 실험 결과 (Key Contributions & Results)

A. 벤치마크 성능 향상

제안된 방법은 추가 학습 (Training-free) 없이도 다양한 모델 (Qwen2.5-VL, InternVL3, LLaVA-OneVision) 과 벤치마크에서 일관된 성능 향상을 보였습니다.

다중 이미지 벤치마크: Mantis, MuirBench, MIRB, QBench2 등에서 상당한 정확도 향상을 기록했습니다. (예: Qwen2.5-VL-3B 의 MuirBench 점수 37.31 → 42.42)
텍스트 전용 다중 인스턴스 벤치마크: 이미지뿐만 아니라 다중 문서 (MultiNews, WCEP-10) 및 다중 테이블 (TQABench) 이해 작업에서도 성능이 향상되어 방법론의 일반화 능력을 입증했습니다.
소규모 모델에서도 효과: 0.5B 에서 78B 에 이르는 다양한 크기의 모델에서 모두 유효함이 확인되었습니다.

B. 효율성 및 비용

추가 비용 0: 메모리 사용량 (VRAM) 과 추론 시간이 기존 베이스라인과 동일하게 유지되었습니다.
기존 방법 대비 우위: 기존 훈련 없는 방법인 FOCUS 와 비교했을 때, FOCUS 는 $n+1$ 번의 포워드 패스를 필요로 하여 추론 비용이 높고 메모리 소모가 큰 반면, 제안된 방법은 단일 패스로 높은 성능을 달성했습니다.

C. 정성적 분석

어텐션 맵 시각화를 통해 이미지 간 경계가 명확히 형성되고 (삼각형 패턴 강화), 불필요한 교차 어텐션이 제거됨을 확인했습니다.
예시: "이미지 1 과 2 에 모두 자전거를 탄 남자가 있는가?"라는 질문에 대해, 베이스라인은 두 이미지 모두에 있다고 잘못 답했으나, 제안 방법은 이미지 2 에만 있다고 정확히 구분했습니다.

4. 의의 및 결론 (Significance & Conclusion)

핵심 통찰: LVLM 에서 다중 이미지 처리 실패의 근본 원인이 '이미지 구분자 토큰의 기능 부재'에 있음을 규명하고, 이를 단순한 스케일링으로 해결할 수 있음을 증명했습니다.
실용성: 별도의 학습 데이터 수집이나 모델 재학습 없이, 추론 단계에서 히든 상태만 조정하여 성능을 극대화할 수 있어 실제 적용 가능성이 매우 높습니다.
미래 방향: 현재는 명시적인 프레임 구분 토큰이 있는 비디오 처리에는 적용이 제한적이지만, 향후 시계열 정보를 모델링하는 메커니즘과 결합하여 비디오 이해 영역으로 확장할 수 있을 것으로 기대됩니다.

이 논문은 복잡한 아키텍처 변경 없이, 모델의 내부 표현 (Hidden State) 을 미세하게 조정함으로써 다중 입력 이해 능력을 획기적으로 개선할 수 있음을 보여주는 중요한 연구입니다.

Enhancing Multi-Image Understanding through Delimiter Token Scaling

🎬 비유: "혼란스러운 회의실"과 "강력한 사회자"

💡 핵심 요약

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

A. 구분자 토큰의 분석 (Analysis of Delimiter Tokens)

B. 제안된 방법: 구분자 토큰 히든 상태 스케일링 (Delimiter Token Hidden State Scaling)

3. 주요 기여 및 실험 결과 (Key Contributions & Results)

A. 벤치마크 성능 향상

B. 효율성 및 비용

C. 정성적 분석

4. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation