Selective Training for Large Vision Language Models via Visual Information Gain

이 논문은 시각 입력이 예측 불확실성을 얼마나 줄이는지를 정량화하는 '시각 정보 획득 (VIG)' 지표를 제안하여, 시각적으로 풍부한 데이터와 토큰을 선별적으로 학습시킴으로써 대규모 시각 - 언어 모델의 언어 편향을 효과적으로 완화하고 시각적 근거 능력을 향상시키는 방법을 제시합니다.

Seulbi Lee, Sangheum Hwang

게시일 2026-02-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

그림을 보는 눈을 기르는 법: "시각적 정보 이득 (VIG)"으로 배우는 AI

이 논문은 **거대 시각 언어 모델 (LVLM)**이라는 AI 가 어떻게 더 똑똑하게 그림을 볼 수 있게 해주는지에 대한 이야기입니다.

🎭 문제: AI 의 '눈 가리고 아웅' 버릇

우리가 AI 에게 "이 그림에 뭐가 그려져 있나요?"라고 물으면, AI 는 그림을 잘 보고 답할 수도 있지만, 그림을 보지 않고도 대충 추측해서 답하는 버릇이 있습니다.

  • 예시: AI 가 "배가 물 위를 지나가고 있어요"라는 질문을 받으면, 그림을 보지 않아도 "배가 지나가면 물결 (wake) 이 생기죠"라는 상식만으로도 정답을 맞힐 수 있습니다.
  • 문제점: AI 는 그림을 자세히 보지 않고, 언어적 상식만 믿고 답을 내는 경우가 많습니다. 이를 **'언어 편향 (Language Bias)'**이라고 합니다. 그림에 없는 개나 고양이가 있다고 장담하는 '환각 (Hallucination)' 현상도 여기서 비롯됩니다.

기존 연구들은 AI 의 구조를 바꾸거나, 추론할 때만 그림을 더 주시하게 하는 방법을 썼지만, 어떤 학습 데이터가 진짜 그림을 보고 배운 건지, 어떤 건 그냥 글만 보고 배운 건지를 숫자로 딱 집어내지는 못했습니다.

💡 해결책: '시각적 정보 이득 (VIG)'이라는 나침반

저자들은 **'시각적 정보 이득 (Visual Information Gain, VIG)'**이라는 새로운 측정 도구를 만들었습니다.

🧐 비유: "그림이 없으면 답을 못 할까?"

이 도구의 원리는 매우 간단합니다.

  1. AI 에게 그림과 질문을 주고 답을 예측하게 합니다.
  2. 그다음 그림을 흐리게 지워버리고 (시각 정보 제거), 질문만 주고 다시 답을 예측하게 합니다.
  3. 두 경우를 비교합니다.
  • 그림이 있을 때만 확실히 답을 맞췄다면? 👉 "아! 이 데이터는 그림이 정말 중요했구나!" (높은 VIG 점수)
  • 그림이 없어도 똑같이 잘 맞췄다면? 👉 "아, 이 데이터는 그림 없이 글만 봐도 됐네." (낮은 VIG 점수)

이처럼 그림이 AI 의 예측을 얼마나 도와주었는지를 수치화한 것이 바로 VIG입니다.

🏫 새로운 학습법: "필터링된 교재"로 공부하기

이제 이 VIG 점수를 이용해 AI 를 가르치는 새로운 방법을 제안합니다.

📚 비유: "질 좋은 교재만 골라 읽는 학생"

기존에는 AI 가 모든 학습 데이터 (그림 + 글) 를 똑같은 비중으로 공부했습니다. 하지만 그림이 필요 없는 쉬운 문제나, 글만 봐도 되는 문제들이 섞여 있으면 AI 는 "그림을 볼 필요가 없구나"라고 생각하게 됩니다.

저자들은 다음과 같이 학습을 바꿨습니다.

  1. 샘플 선택 (Sample Selection): 그림이 정말 중요한 문제들 (높은 VIG 점수) 만 골라냅니다. 그림이 없으면 답을 못 하는 '진짜' 시각 학습 데이터를 선별합니다.
  2. 단어 선택 (Token Selection): 문제 전체가 아니라, 단어 하나하나도 봅니다.
    • "빨간", "왼쪽", "앉아 있는" 같은 그림의 특징을 설명하는 단어는 VIG 점수가 높습니다. (학습 필수!)
    • "그", "는", "입니다" 같은 문법적 단어는 VIG 점수가 낮습니다. (학습 비중 줄임!)

결과: AI 는 그림을 보지 않고는 답할 수 없는 '진짜' 데이터와, 그림의 특징을 설명하는 '진짜' 단어들만 집중해서 공부하게 됩니다.

🚀 성과: 적은 노력으로 더 큰 효과

이 방법을 적용한 결과는 놀라웠습니다.

  • 데이터 효율성: 학습에 사용한 데이터 양을 70% 로 줄이고, 실제로 학습에 반영된 단어 수도 30~80% 까지 줄였음에도 불구하고 성능은 오히려 좋아졌습니다.
  • 환각 감소: 그림에 없는 물건을 만들어내는 '환각' 현상이 크게 줄었습니다. AI 가 이제 그림을 더 신뢰하게 된 것입니다.
  • 다른 방법과 함께 사용 가능: 이 방법은 AI 의 구조를 바꾸지 않아도 되며, 기존에 개발된 다른 기술들과도 잘 결합되어 더 강력한 성능을 냅니다.

🌟 결론

이 논문은 **"AI 가 그림을 제대로 보게 하려면, 그림이 정말 중요한 순간에만 집중해서 가르쳐야 한다"**는 통찰을 줍니다.

마치 학생이 모든 교과서를 다 읽는 대신, 핵심 개념이 담긴 페이지만 집중적으로 공부하면 더 빨리, 더 정확하게 배울 수 있는 것과 같습니다. 저자들은 이 '핵심 학습' 방식을 통해 AI 가 그림을 더 잘 이해하고, 거짓말 (환각) 을 덜 하도록 만들었습니다.

한 줄 요약:

"그림이 없으면 답을 못 하는 진짜 학습 데이터만 골라 AI 에게 가르치니, AI 가 그림을 더 잘 보고 환각도 사라졌습니다!"

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →