Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

이 논문은 정보이론적 관점에서 멀티모달 LLM 의 모달리티 붕괴 현상을 텍스트 정렬된 디코더의 불일치 해독 문제로 설명하며, 모델의 아키텍처가 아닌 학습 목표 (스코어링 규칙) 가 접근 가능한 정보의 한계를 결정한다는 것을 입증합니다.

Jayadev Billa

게시일 2026-03-09
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최근 핫한 멀티모달 LLM(텍스트, 이미지, 음성을 모두 이해하는 AI) 이 왜 가끔은 "바보처럼" 행동하는지에 대한 놀라운 이유를 찾아낸 연구입니다.

핵심 주제는 **"모달리티 붕괴 **(Modality Collapse)라는 현상입니다. 쉽게 말해, AI 가 그림이나 소리를 아주 잘 '보고' 들으면서도, 정작 중요한 세부 사항 (예: 그림 속 사물의 개수 세기, 목소리의 감정 파악) 을 놓쳐버리는 문제죠.

저자는 이 문제를 **통신 공학의 '잘못된 해독기 **(Mismatched Decoder) 개념으로 설명하며, 매우 직관적인 비유를 사용합니다.


🎧 비유: "영어만 읽는 번역가가 프랑스어 소리를 듣는 상황"

이 논문의 핵심을 이해하기 위해 다음 상황을 상상해 보세요.

  1. 상황: 아주 똑똑한 **영어 번역가 **(LLM)가 있습니다. 이 번역가는 평생 **영어 책 **(텍스트 데이터)만 읽으며 훈련받았습니다.
  2. 문제: 이제 이 번역가에게 **프랑스어 노래 **(이미지/음성 데이터)를 들려주고 "이 노래의 감정이 뭐야?"라고 물어봅니다.
  3. 현상:
    • 번역가는 노래 가사 (텍스트) 에 해당하는 부분만 이해합니다. "사랑해"라는 가사가 나오면 "사랑"이라는 감정을 맞춥니다.
    • 하지만 노래의 **톤 **(조성), 리듬, 목소리의 떨림 같은 진짜 감정 신호는 전혀 못 느낍니다.
    • 심지어 그 프랑스어 소리를 들으면 번역가의 머리가 혼란스러워져서, 아예 엉뚱한 영어 단어를 내뱉기도 합니다.

이게 바로 이 논문이 말하는 모달리티 붕괴입니다. AI 가 정보를 '보유'하고는 있지만, 그 정보를 '해석'할 수 없는 상태죠.


🔍 왜 이런 일이 일어날까요? (세 가지 핵심 통찰)

1. "해독기"가 텍스트에 맞춰져 있어요 (Scoring Rule)

AI 의 핵심인 '해석기 (Decoder)'는 오직 텍스트로만 훈련되었습니다. 마치 영어만 읽는 사람이 프랑스어 소리를 들을 때, 소리의 높낮이나 리듬은 '잡음 (Noise)'으로만 인식하는 것과 같습니다.

  • 논문이 말한 것: AI 가 그림이나 소리를 처리할 때, 그 안에 있는 비문자 정보 (감정, 공간 관계 등) 는 사라진 게 아닙니다. AI 가 그 정보를 '읽을 수 있는 도구'를 가지고 있지 않은 것뿐입니다.

2. 정보를 지우는 게 아니라, 무시하는 거예요

많은 사람이 "아, AI 가 그림을 제대로 못 보네"라고 생각하지만, 연구 결과는 다릅니다.

  • 실험 결과: AI 의 내부 상태를 분석해 보니, 감정 정보나 사물 개수 정보는 여전히 AI 안에 꽉 차 있었습니다. (선형 프로브라는 검사로 확인됨)
  • 하지만: AI 가 그 정보를 '답변'으로 뽑아내지 못합니다. 마치 책장에 꽂혀 있는 책이 있는데, 독자가 그 책을 읽을 수 있는 안경을 쓰지 않아서 내용을 모르고 넘어가는 것과 같습니다.

3. "잘못된 해독"이 오히려 해가 됩니다

가장 놀라운 점은, 비문자 정보 (예: 목소리의 떨림) 가 AI 에게 들어오면 오히려 성능이 떨어진다는 것입니다.

  • 비유: 영어만 읽는 번역가가 갑자기 프랑스어 소리를 들으면, 그 소리가 영어 문장 구조를 망가뜨려서 엉뚱한 번역을 하게 됩니다.
  • 논문 발견: 연구진은 AI 에서 '비문자 정보'를 인위적으로 지워버렸더니, 오히려 AI 가 텍스트를 더 잘 처리하고 성능이 좋아지는 것을 발견했습니다. 즉, AI 는 비문자 정보를 '방해 신호'로 인식하고 있는 것입니다.

💡 해결책은 무엇일까요?

논문은 두 가지 해결책을 제시합니다.

1. "입력"을 맞추는 건 임시방편 (Encoder Alignment)

현재 많은 AI 는 이미지나 소리를 텍스트와 비슷한 형태로 변환하는 '변환기 (Encoder)'를 사용합니다. (예: CLIP, SigLIP)

  • 효과: 변환기가 텍스트와 비슷한 형태로 정보를 보내주면 AI 가 그 정보를 이해할 수 있습니다.
  • 한계: 하지만 변환기가 텍스트와 비슷한 것만 보내주다 보니, **텍스트로 설명할 수 없는 진짜 정보 **(예: 질감, 미세한 공간 관계)는 아예 버려집니다. "텍스트로 설명 가능한 것만 보여주고, 나머지는 가려버리는" 방식입니다.

2. "해독기"를 다시 훈련해야 합니다 (Training Objective)

진짜 해결책은 AI 가 비문자 정보에 관심을 갖도록 훈련시키는 것입니다.

  • 실험: 연구진은 AI 에게 "목소리의 감정을 맞춰봐"라는 새로운 과제를 주며 훈련시켰습니다 (LoRA 기법 사용).
  • 결과: 놀랍게도, 감정 인식 정확도가 17% 에서 61% 로 폭풍상승했습니다. 그리고 다른 능력 (단어 인식 등) 은 그대로 유지되었습니다.
  • 교훈: AI 가 정보를 '보유'하고 있는지 여부는 중요하지 않습니다. 훈련 과정에서 "이 정보를 써라"라고 명령을 내리는지가 중요합니다.

📝 한 줄 요약

"AI 는 그림과 소리를 다 보고 들을 수 있지만, 오직 '텍스트'로만 생각하도록 훈련받았기 때문에, 텍스트로 설명되지 않는 중요한 정보들은 '방해 신호'로 무시하거나 오히려 망쳐버린다. 이 문제를 고치려면 AI 에게 비문자 정보도 중요하다고 다시 가르쳐야 한다."

이 논문은 AI 의 실패 원인이 "기술 부족"이 아니라, **"훈련 목표 **(Objective)임을 수학적으로 증명하고, 이를 해결하는 구체적인 방법을 제시했다는 점에서 매우 중요합니다.