Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

본 논문은 멀티모달 LLM 에서 텍스트가 이미지로 변환될 때 발생하는 성능 저하 (모달리티 격차) 를 체계적으로 진단하고, 렌더링 요인의 영향과 오류 유형을 규명하며, 모델의 자체 텍스트 추론 궤적을 활용한 자기 증류법을 통해 시각적 텍스트 이해 능력을 획기적으로 개선하는 방법을 제시합니다.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai

게시일 Wed, 11 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 " Multimodal Large Language Models (MLLMs, 멀티모달 거대 언어 모델)" 이라는 최신 AI 가 겪는 아주 재미있고 중요한 문제를 다룹니다.

핵심 주제는 "AI 가 글을 읽을 때, '텍스트 파일'로 주는 것과 '사진'으로 주는 것의 차이" 입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제 상황: "눈으로 읽는 것"과 "머리로 읽는 것"의 괴리

상상해 보세요. 우리가 책을 읽을 때는 종이에 인쇄된 글자를 눈으로 보고 이해합니다. 하지만 컴퓨터 AI 는 보통 글을 디지털 코드 (텍스트 토큰) 로 받아서 처리합니다.

이 논문은 AI 에게 같은 내용을 두 가지 방식으로 주었을 때의 결과를 비교했습니다.

  1. 텍스트 방식: AI 가 직접 읽을 수 있는 글자 데이터.
  2. 이미지 방식: 그 글자를 찍은 사진 (예: PDF 파일이나 스크린샷).

놀라운 사실: AI 는 같은 내용이라도 사진으로 주면 훨씬 못 합니다. 마치 우리가 "눈으로 글자를 읽는 것"은 익숙하지만, AI 에게는 "사진 속 글자를 해독해서 다시 생각하기"가 매우 어렵다는 뜻입니다. 이를 '모달리티 갭 (Modality Gap)' 이라고 부릅니다.

2. 왜 그럴까? (원인 분석)

연구진은 이 문제를 해결하기 위해 7 개의 AI 모델과 7 개의 시험지를 가지고 실험을 했습니다. 그 결과, 원인은 크게 두 가지였습니다.

① "글씨체"와 "화질"의 함정 (렌더링 문제)

AI 는 훈련할 때 주로 깔끔한 디지털 글자를 봤습니다. 그런데 실험에서 손글씨체특이한 폰트, 해상도가 낮은 이미지를 주면 AI 는 아예 글자를 못 읽습니다.

  • 비유: AI 가 "명조체"로 된 책을 읽는 데는 능숙하지만, "손으로 쓴 낙서"나 "흐릿한 복사본"을 보면 "이게 무슨 글자지?" 하며 당황하는 것입니다.
  • 결과: 폰트 하나만 바꿔도 점수가 47% 이상 뚝 떨어지기도 했습니다.

② "읽기"는 망가졌는데, "생각"은 그대로 (이해의 문제)

연구진은 4,000 개 이상의 틀린 답을 분석했습니다.

  • 텍스트로 줄 때: AI 는 논리적으로 잘 생각하지만, 가끔 지식이 부족해서 틀립니다.
  • 이미지로 줄 때: AI 는 글자를 잘못 읽어서 (계산 실수, 숫자 오인) 틀리는 경우가 폭발적으로 늘었습니다. 하지만 지식이나 추론 능력 자체는 그대로였습니다.
  • 비유: AI 는 "수학 문제"를 풀 때, 문제지 (이미지) 를 잘못 읽어서 "3+5 가 9 지?"라고 착각하는 것입니다. AI 의 수학 실력 (생각) 이 나빠진 게 아니라, 눈 (읽기) 이 나빠진 것입니다.

③ "생각하는 습관"이 사라짐 (Chain-of-Thought Collapse)

텍스트로 문제를 풀 때 AI 는 "1 단계, 2 단계, 3 단계..."라고 차근차근 설명하며 답을 냅니다. 하지만 이미지로 주면, 그런 설명을 아예 하지 않고 바로 답만 뚝딱 내뱉습니다.

  • 비유: 평소에는 "풀이 과정을 보여주세요"라고 하면 꼼꼼히 설명하는 학생이, 시험지를 사진으로 찍어주면 "정답만 알려주세요"라고 외치며 생각하는 과정을 생략해버리는 것입니다.

3. 해결책: "스스로를 가르치는" 방법 (Self-Distillation)

이 문제를 해결하기 위해 연구진은 아주 영리한 방법을 고안했습니다.

"AI 가 텍스트로 푼 '완벽한 풀이 과정'을, AI 스스로가 이미지로 본 문제를 풀 때 따라 하게 하자!"

  • 방법:

    1. AI 에게 문제를 텍스트로 주고, AI 가 스스로 "이렇게 생각해서 이 답을 냈다"는 생각의 흔적 (CoT) 을 기록하게 합니다.
    2. 그다음 같은 문제를 이미지로 주면서, "이전에 텍스트로 풀 때처럼, 이렇게 생각해서 답을 내라"고 가르칩니다.
    3. AI 는 자신의 '텍스트 버전의 지혜'를 '이미지 버전의 눈'에 주입하는 것입니다.
  • 결과:

    • 수학 문제 (GSM8K) 에서 이미지로 풀 때의 점수가 30% 에서 92% 로 폭풍상승했습니다!
    • 텍스트로 풀 때의 실력은 그대로 유지되면서, 이미지로도 똑똑해졌습니다.

4. 결론: 무엇을 배울 수 있을까?

이 논문은 우리에게 중요한 교훈을 줍니다.

  1. AI 는 '눈'이 나빠진 게 아니라, '읽는 습관'이 없었던 것입니다. AI 가 이미지 속 글을 읽을 때 실수하는 건, AI 가 멍청해서가 아니라 이미지 처리 방식과 훈련 데이터가 안 맞았기 때문입니다.
  2. 단순한 해결책이 있습니다. AI 의 구조를 완전히 바꿀 필요 없이, AI 스스로가 이미 알고 있는 '생각의 과정'을 이미지 입력에 맞춰 재학습시키는 것만으로도 문제를 해결할 수 있습니다.
  3. 미래는 밝습니다. AI 가 사진 속의 문서, 책, 공식을 읽는 능력이 이미 충분히 좋아질 수 있다는 것을 증명했습니다.

한 줄 요약:

"AI 가 사진을 보고 글을 못 읽는 건, AI 가 바보가 아니라 글씨체와 화질에 익숙하지 않아서입니다. AI 가 스스로의 '생각 과정'을 이미지로 다시 연습하게 하면, 눈이 나쁜 AI 도 천재가 될 수 있습니다."