Each language version is independently generated for its own context, not a direct translation.

그림을 보는 눈을 기르는 법: "시각적 정보 이득 (VIG)"으로 배우는 AI

이 논문은 **거대 시각 언어 모델 (LVLM)**이라는 AI 가 어떻게 더 똑똑하게 그림을 볼 수 있게 해주는지에 대한 이야기입니다.

🎭 문제: AI 의 '눈 가리고 아웅' 버릇

우리가 AI 에게 "이 그림에 뭐가 그려져 있나요?"라고 물으면, AI 는 그림을 잘 보고 답할 수도 있지만, 그림을 보지 않고도 대충 추측해서 답하는 버릇이 있습니다.

예시: AI 가 "배가 물 위를 지나가고 있어요"라는 질문을 받으면, 그림을 보지 않아도 "배가 지나가면 물결 (wake) 이 생기죠"라는 상식만으로도 정답을 맞힐 수 있습니다.
문제점: AI 는 그림을 자세히 보지 않고, 언어적 상식만 믿고 답을 내는 경우가 많습니다. 이를 **'언어 편향 (Language Bias)'**이라고 합니다. 그림에 없는 개나 고양이가 있다고 장담하는 '환각 (Hallucination)' 현상도 여기서 비롯됩니다.

기존 연구들은 AI 의 구조를 바꾸거나, 추론할 때만 그림을 더 주시하게 하는 방법을 썼지만, 어떤 학습 데이터가 진짜 그림을 보고 배운 건지, 어떤 건 그냥 글만 보고 배운 건지를 숫자로 딱 집어내지는 못했습니다.

💡 해결책: '시각적 정보 이득 (VIG)'이라는 나침반

저자들은 **'시각적 정보 이득 (Visual Information Gain, VIG)'**이라는 새로운 측정 도구를 만들었습니다.

🧐 비유: "그림이 없으면 답을 못 할까?"

이 도구의 원리는 매우 간단합니다.

AI 에게 그림과 질문을 주고 답을 예측하게 합니다.
그다음 그림을 흐리게 지워버리고 (시각 정보 제거), 질문만 주고 다시 답을 예측하게 합니다.
두 경우를 비교합니다.

그림이 있을 때만 확실히 답을 맞췄다면? 👉 "아! 이 데이터는 그림이 정말 중요했구나!" (높은 VIG 점수)
그림이 없어도 똑같이 잘 맞췄다면? 👉 "아, 이 데이터는 그림 없이 글만 봐도 됐네." (낮은 VIG 점수)

이처럼 그림이 AI 의 예측을 얼마나 도와주었는지를 수치화한 것이 바로 VIG입니다.

🏫 새로운 학습법: "필터링된 교재"로 공부하기

이제 이 VIG 점수를 이용해 AI 를 가르치는 새로운 방법을 제안합니다.

📚 비유: "질 좋은 교재만 골라 읽는 학생"

기존에는 AI 가 모든 학습 데이터 (그림 + 글) 를 똑같은 비중으로 공부했습니다. 하지만 그림이 필요 없는 쉬운 문제나, 글만 봐도 되는 문제들이 섞여 있으면 AI 는 "그림을 볼 필요가 없구나"라고 생각하게 됩니다.

저자들은 다음과 같이 학습을 바꿨습니다.

샘플 선택 (Sample Selection): 그림이 정말 중요한 문제들 (높은 VIG 점수) 만 골라냅니다. 그림이 없으면 답을 못 하는 '진짜' 시각 학습 데이터를 선별합니다.
단어 선택 (Token Selection): 문제 전체가 아니라, 단어 하나하나도 봅니다.
- "빨간", "왼쪽", "앉아 있는" 같은 그림의 특징을 설명하는 단어는 VIG 점수가 높습니다. (학습 필수!)
- "그", "는", "입니다" 같은 문법적 단어는 VIG 점수가 낮습니다. (학습 비중 줄임!)

결과: AI 는 그림을 보지 않고는 답할 수 없는 '진짜' 데이터와, 그림의 특징을 설명하는 '진짜' 단어들만 집중해서 공부하게 됩니다.

🚀 성과: 적은 노력으로 더 큰 효과

이 방법을 적용한 결과는 놀라웠습니다.

데이터 효율성: 학습에 사용한 데이터 양을 70% 로 줄이고, 실제로 학습에 반영된 단어 수도 30~80% 까지 줄였음에도 불구하고 성능은 오히려 좋아졌습니다.
환각 감소: 그림에 없는 물건을 만들어내는 '환각' 현상이 크게 줄었습니다. AI 가 이제 그림을 더 신뢰하게 된 것입니다.
다른 방법과 함께 사용 가능: 이 방법은 AI 의 구조를 바꾸지 않아도 되며, 기존에 개발된 다른 기술들과도 잘 결합되어 더 강력한 성능을 냅니다.

🌟 결론

이 논문은 **"AI 가 그림을 제대로 보게 하려면, 그림이 정말 중요한 순간에만 집중해서 가르쳐야 한다"**는 통찰을 줍니다.

마치 학생이 모든 교과서를 다 읽는 대신, 핵심 개념이 담긴 페이지만 집중적으로 공부하면 더 빨리, 더 정확하게 배울 수 있는 것과 같습니다. 저자들은 이 '핵심 학습' 방식을 통해 AI 가 그림을 더 잘 이해하고, 거짓말 (환각) 을 덜 하도록 만들었습니다.

한 줄 요약:

"그림이 없으면 답을 못 하는 진짜 학습 데이터만 골라 AI 에게 가르치니, AI 가 그림을 더 잘 보고 환각도 사라졌습니다!"

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

대규모 비전 - 언어 모델 (LVLM) 의 언어 편향 (Language Bias): 최근 LVLM 은 이미지 캡셔닝, 시각적 질문 응답 (VQA), 복잡한 추론 등 다양한 멀티모달 작업에서 뛰어난 성능을 보여주고 있습니다. 그러나 이러한 모델들은 종종 시각적 증거에 의존하기보다 언어적 선지 (textual priors) 에 과도하게 의존하는 '언어 편향' 현상을 보입니다.
시각적 무지 (Visual Ignorance) 와 환각 (Hallucination): 언어 편향은 모델이 이미지의 실제 내용을 무시하고 일반적인 언어 패턴이나 상식만으로 답변을 생성하게 만듭니다. 이는 존재하지 않는 객체를 묘사하거나 속성을 잘못 설명하는 '환각' 현상으로 이어져 모델의 신뢰성을 떨어뜨립니다.
기존 방법의 한계:
- 추론 단계의 개선: 대비적 디코딩 (Contrastive Decoding) 등 추론 시 시각적 주의를 강화하는 방법들이 제안되었으나, 근본적인 학습 데이터의 문제를 해결하지 못하거나 추론 오버헤드를 증가시킵니다.
- 데이터 중심 접근: 고품질 데이터셋을 구축하려는 시도가 있었으나, 학습 데이터 내의 각 샘플이나 토큰이 시각 정보에 얼마나 의존하는지를 정량적으로 측정하는 지표가 부재했습니다. 결과적으로 시각적으로 중요한 데이터와 언어만으로 해결 가능한 데이터가 동일한 가중치로 학습되어 모델이 시각적 근거를 학습할 동기를 잃게 됩니다.

2. 제안 방법: 시각 정보 획득량 (Visual Information Gain, VIG)

저자들은 언어 편향을 해결하기 위해 데이터 중심 관점에서 **시각 정보 획득량 (VIG)**이라는 새로운 지표를 제안합니다.

VIG 의 정의:
- VIG 는 이미지 입력이 모델의 예측 불확실성 (Perplexity, PPL) 을 얼마나 감소시키는지 측정하는 퍼플렉시티 기반의 지표입니다.
- 수식: $VIG = \log \left( \frac{PPL(A|Q)}{PPL(A|Q, I)} \right)$ $V I G = lo g (\frac{P P L ( A ∣ Q )}{P P L ( A ∣ Q , I )})$
  - $PPL(A|Q) $: 이미지 없이 질문 ($ Q $) 만으로 답변 ($ A$) 을 예측할 때의 퍼플렉시티.
  - $PPL(A|Q, I) $: 이미지 ($ I$) 와 질문을 모두 입력받아 예측할 때의 퍼플렉시티.
- 의미: VIG 값이 높을수록 이미지가 답변 예측에 결정적인 역할을 했음을 의미하며, 낮거나 음수일 경우 이미지가 불필요하거나 오히려 예측을 방해했음을 나타냅니다.
- 구현: 이미지 입력을 모사하기 위해 원본 이미지를 흐리게 (Blur) 처리하여 시각적 단서를 제거한 상태에서 PPL 을 계산합니다.
VIG 의 특성:
- 샘플 및 토큰 수준의 분석: VIG 는 전체 샘플의 평균값뿐만 아니라, 답변 내의 **각 토큰별 손실 차이 (loss difference)**를 계산하여 토큰 수준에서도 시각적 의존도를 분석할 수 있습니다.
- 시각적 근거 식별: 색상, 공간적 관계, 객체 속성 등 시각적으로 명확한 토큰은 높은 VIG 를 보이며, 접속사나 관사 등 문법적 토큰은 낮은 VIG 를 보입니다.

3. VIG 가이드 선택적 학습 (VIG-Guided Selective Training)

제안된 VIG 지표를 활용하여 학습 효율성을 극대화하고 언어 편향을 완화하는 2 단계 선택적 학습 전략을 도입했습니다.

샘플 수준 선택 (Sample-level Selection):
- 모든 멀티모달 학습 샘플의 VIG 점수를 계산합니다.
- VIG 점수가 높은 상위 $p\%$ (예: 70%) 의 샘플만 선별하여 학습 데이터셋으로 사용합니다. 이는 언어만으로 해결 가능한 약한 시각적 의존도 샘플을 제거합니다.
토큰 수준 선택 (Token-level Selection):
- 선별된 샘플 내에서도 VIG 가 높은 토큰 (시각적으로 중요한 단어) 에 대해서만 손실 (Loss) 을 계산하고 가중치 업데이트를 수행합니다.
- VIG 가 낮은 토큰 (문법적 요소 등) 에 대한 학습은 제외하여 모델이 시각적 증거에 집중하도록 유도합니다.

이 전략은 **동일한 임계값 ( $\tau_p$ )**을 샘플과 토큰 수준에 모두 적용하여 하이퍼파라미터를 최소화하면서도 데이터의 시각적 정보 밀도를 극대화합니다.

4. 주요 실험 결과 (Results)

LLaVA-1.5 (7B, 13B) 및 ShareGPT4V (7B) 모델을 기반으로 한 실험 결과는 다음과 같습니다.

데이터 효율성 및 성능 향상:
- LLaVA-1.5 7B: 전체 데이터의 70% 만 사용하고 토큰 수준 필터링을 적용하면, 실제 학습 토큰 수는 약 **34% (38.45M 개)**로 감소했으나, 모든 벤치마크 (LLaVAW, MMVet, MMBench 등) 에서 성능이 향상되었습니다.
- LLaVA-1.5 13B: 전체 데이터 대비 **79% 감소 (12.14M 토큰)**된 supervision 으로도 모든 벤치마크에서 성능이 개선되었습니다. 이는 대규모 모델이 정제된 시각적 데이터에 더 효과적으로 학습할 수 있음을 시사합니다.
할루시네이션 감소:
- POPE, CHAIR, MMHal 등 할루시네이션 평가 벤치마크에서 VIG 학습 모델은 기존 모델보다 현저히 낮은 환각률을 보였습니다. 특히 MMHal 점수에서 큰 개선을 이루었습니다.
기존 방법과의 비교:
- 학습이 필요 없는 방법 (VCD, PAI, VAR) 이나 학습 기반 방법 (LACING) 보다 아키텍처 변경 없이 추론 오버헤드 없이 더 균일하고 강력한 성능 향상을 보였습니다.
- 기존 방법들과 직교 (Orthogonal) 하여 결합 시 추가적인 성능 향상을 얻었습니다.
메커니즘 분석:
- 시각적 주의 집중: VIG 학습 모델은 중간 레이어를 포함한 모든 레이어에서 시각 토큰에 할당된 어텐션 (Attention) 비율이 기존 모델보다 높았습니다.
- 언어 편향 저항성: 잘못된 텍스트 설명이 포함된 이미지 (Corrupted caption) 에 대한 테스트에서 VIG 학습 모델은 텍스트의 유혹에 덜 넘어가고 시각적 증거에 기반한 답변을 더 정확하게 생성했습니다.

5. 기여 및 의의 (Contributions & Significance)

정량적 지표의 제안: LVLM 의 학습 데이터 내 시각적 의존도를 샘플 및 토큰 수준에서 정량화할 수 있는 첫 번째 지표인 VIG 를 제안했습니다.
데이터 중심 편향 해결: 모델 아키텍처를 변경하거나 추론 비용을 증가시키지 않고, 데이터의 질과 양을 선별함으로써 언어 편향을 근본적으로 완화하고 시각적 근거 (Visual Grounding) 를 강화하는 새로운 패러다임을 제시했습니다.
높은 데이터 효율성: 학습에 필요한 멀티모달 감독 신호 (Supervision) 를 대폭 줄이면서도 (최대 79% 감소), 오히려 더 나은 성능과 견고성을 달성하여 고비용의 대규모 멀티모달 학습의 효율성을 입증했습니다.
실용적 가치: VIG 점수는 학습 전 한 번만 계산하면 되며, 다양한 모델과 학습 라운드에서 재사용 가능하므로 실제 적용에 있어 실용적입니다.

결론적으로, 이 논문은 LVLM 이 '보는 것 (seeing)'을 제대로 학습하도록 하기 위해, 학습 데이터 중 시각적으로 의미 있는 부분만 선별하여 집중 학습하는 전략의 유효성을 입증했습니다.

Selective Training for Large Vision Language Models via Visual Information Gain

그림을 보는 눈을 기르는 법: "시각적 정보 이득 (VIG)"으로 배우는 AI

🎭 문제: AI 의 '눈 가리고 아웅' 버릇

💡 해결책: '시각적 정보 이득 (VIG)'이라는 나침반

🧐 비유: "그림이 없으면 답을 못 할까?"

🏫 새로운 학습법: "필터링된 교재"로 공부하기

📚 비유: "질 좋은 교재만 골라 읽는 학생"

🚀 성과: 적은 노력으로 더 큰 효과

🌟 결론

1. 연구 배경 및 문제 제기 (Problem)

2. 제안 방법: 시각 정보 획득량 (Visual Information Gain, VIG)

3. VIG 가이드 선택적 학습 (VIG-Guided Selective Training)

4. 주요 실험 결과 (Results)

5. 기여 및 의의 (Contributions & Significance)

유사한 논문

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration