Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

이 논문은 " Multimodal Large Language Models (MLLMs, 멀티모달 거대 언어 모델)" 이라는 최신 AI 가 겪는 아주 재미있고 중요한 문제를 다룹니다.

핵심 주제는 "AI 가 글을 읽을 때, '텍스트 파일'로 주는 것과 '사진'으로 주는 것의 차이" 입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제 상황: "눈으로 읽는 것"과 "머리로 읽는 것"의 괴리

상상해 보세요. 우리가 책을 읽을 때는 종이에 인쇄된 글자를 눈으로 보고 이해합니다. 하지만 컴퓨터 AI 는 보통 글을 디지털 코드 (텍스트 토큰) 로 받아서 처리합니다.

이 논문은 AI 에게 같은 내용을 두 가지 방식으로 주었을 때의 결과를 비교했습니다.

텍스트 방식: AI 가 직접 읽을 수 있는 글자 데이터.
이미지 방식: 그 글자를 찍은 사진 (예: PDF 파일이나 스크린샷).

놀라운 사실: AI 는 같은 내용이라도 사진으로 주면 훨씬 못 합니다. 마치 우리가 "눈으로 글자를 읽는 것"은 익숙하지만, AI 에게는 "사진 속 글자를 해독해서 다시 생각하기"가 매우 어렵다는 뜻입니다. 이를 '모달리티 갭 (Modality Gap)' 이라고 부릅니다.

2. 왜 그럴까? (원인 분석)

연구진은 이 문제를 해결하기 위해 7 개의 AI 모델과 7 개의 시험지를 가지고 실험을 했습니다. 그 결과, 원인은 크게 두 가지였습니다.

① "글씨체"와 "화질"의 함정 (렌더링 문제)

AI 는 훈련할 때 주로 깔끔한 디지털 글자를 봤습니다. 그런데 실험에서 손글씨체나 특이한 폰트, 해상도가 낮은 이미지를 주면 AI 는 아예 글자를 못 읽습니다.

비유: AI 가 "명조체"로 된 책을 읽는 데는 능숙하지만, "손으로 쓴 낙서"나 "흐릿한 복사본"을 보면 "이게 무슨 글자지?" 하며 당황하는 것입니다.
결과: 폰트 하나만 바꿔도 점수가 47% 이상 뚝 떨어지기도 했습니다.

② "읽기"는 망가졌는데, "생각"은 그대로 (이해의 문제)

연구진은 4,000 개 이상의 틀린 답을 분석했습니다.

텍스트로 줄 때: AI 는 논리적으로 잘 생각하지만, 가끔 지식이 부족해서 틀립니다.
이미지로 줄 때: AI 는 글자를 잘못 읽어서 (계산 실수, 숫자 오인) 틀리는 경우가 폭발적으로 늘었습니다. 하지만 지식이나 추론 능력 자체는 그대로였습니다.
비유: AI 는 "수학 문제"를 풀 때, 문제지 (이미지) 를 잘못 읽어서 "3+5 가 9 지?"라고 착각하는 것입니다. AI 의 수학 실력 (생각) 이 나빠진 게 아니라, 눈 (읽기) 이 나빠진 것입니다.

③ "생각하는 습관"이 사라짐 (Chain-of-Thought Collapse)

텍스트로 문제를 풀 때 AI 는 "1 단계, 2 단계, 3 단계..."라고 차근차근 설명하며 답을 냅니다. 하지만 이미지로 주면, 그런 설명을 아예 하지 않고 바로 답만 뚝딱 내뱉습니다.

비유: 평소에는 "풀이 과정을 보여주세요"라고 하면 꼼꼼히 설명하는 학생이, 시험지를 사진으로 찍어주면 "정답만 알려주세요"라고 외치며 생각하는 과정을 생략해버리는 것입니다.

3. 해결책: "스스로를 가르치는" 방법 (Self-Distillation)

이 문제를 해결하기 위해 연구진은 아주 영리한 방법을 고안했습니다.

"AI 가 텍스트로 푼 '완벽한 풀이 과정'을, AI 스스로가 이미지로 본 문제를 풀 때 따라 하게 하자!"

방법:
1. AI 에게 문제를 텍스트로 주고, AI 가 스스로 "이렇게 생각해서 이 답을 냈다"는 생각의 흔적 (CoT) 을 기록하게 합니다.
2. 그다음 같은 문제를 이미지로 주면서, "이전에 텍스트로 풀 때처럼, 이렇게 생각해서 답을 내라"고 가르칩니다.
3. AI 는 자신의 '텍스트 버전의 지혜'를 '이미지 버전의 눈'에 주입하는 것입니다.
결과:
- 수학 문제 (GSM8K) 에서 이미지로 풀 때의 점수가 30% 에서 92% 로 폭풍상승했습니다!
- 텍스트로 풀 때의 실력은 그대로 유지되면서, 이미지로도 똑똑해졌습니다.

4. 결론: 무엇을 배울 수 있을까?

이 논문은 우리에게 중요한 교훈을 줍니다.

AI 는 '눈'이 나빠진 게 아니라, '읽는 습관'이 없었던 것입니다. AI 가 이미지 속 글을 읽을 때 실수하는 건, AI 가 멍청해서가 아니라 이미지 처리 방식과 훈련 데이터가 안 맞았기 때문입니다.
단순한 해결책이 있습니다. AI 의 구조를 완전히 바꿀 필요 없이, AI 스스로가 이미 알고 있는 '생각의 과정'을 이미지 입력에 맞춰 재학습시키는 것만으로도 문제를 해결할 수 있습니다.
미래는 밝습니다. AI 가 사진 속의 문서, 책, 공식을 읽는 능력이 이미 충분히 좋아질 수 있다는 것을 증명했습니다.

한 줄 요약:

"AI 가 사진을 보고 글을 못 읽는 건, AI 가 바보가 아니라 글씨체와 화질에 익숙하지 않아서입니다. AI 가 스스로의 '생각 과정'을 이미지로 다시 연습하게 하면, 눈이 나쁜 AI 도 천재가 될 수 있습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

다중 모달 대규모 언어 모델 (MLLM) 은 텍스트를 이미지 (픽셀) 로 변환하여 입력받았을 때, 동일한 내용을 텍스트 토큰으로 직접 입력받았을 때보다 성능이 현저히 떨어지는 '모달리티 갭 (Modality Gap)' 현상을 보입니다.

기존 연구들은 이 갭의 존재를 문서화하거나 새로운 아키텍처를 구축하여 우회하는 데 집중했으나, 왜 이러한 갭이 발생하는지, 언제 시각 입력이 도움이 되는지 해로운지, 그리고 최소한의 개입으로 어떻게 이를 해결할 수 있는지에 대한 체계적인 분석이 부족했습니다.
특히 기존 평가는 합성된 렌더링 이미지 (Synthetic Renderings) 에만 의존하여, 렌더링 아티팩트와 실제 지각적 결함을 혼동할 가능성이 있었습니다.

2. 방법론 (Methodology)

저자들은 7 개의 MLLM 과 7 개의 벤치마크를 대상으로 5 가지 입력 모드를 비교 분석하며 체계적인 진단을 수행했습니다.

평가 설정 (Input Modalities):
1. Pure Text: 원본 텍스트 토큰 입력.
2. Pure Image: 텍스트를 이미지로 렌더링한 후 입력 (전체 이미지만).
3. Instr.+Image: 텍스트는 이미지로, 지시문은 텍스트로 입력 (전통적 VQA 방식).
4. OCR-1P: 이미지에서 텍스트 추출 후 한 번의 추론으로 문제 해결.
5. OCR-2P: 2 단계 파이프라인 (이미지 $\to$ 텍스트 추출 $\to$ 추출된 텍스트로 문제 해결). 이를 통해 '읽기 (Reading)'와 '추론 (Reasoning)' 단계를 분리하여 오류 원인을 규명했습니다.
데이터셋:
- 합성 이미지: MMLU, ARC, GPQA, GSM8K, HumanEval 등 기존 벤치마크를 이미지로 렌더링.
- 자연 이미지: arXiv PDF(SQuAD, QASPER) 와 위키백과 스크린샷 등 실제 문서 이미지 사용.
오류 분석 (Error Analysis):
- 4,000 개 이상의 오류 사례에 대한 Grounded Theory(현상학) 기반의 정성적 분석을 수행했습니다.
- 인간과 LLM 에이전트 (GPT-5.2) 를 협력시켜 오류를 코딩하고 분류하여 오류 분류 체계 (Taxonomy) 를 구축했습니다.
해결 방안 (Self-Distillation):
- 모델이 텍스트 모드에서 생성한 추론 과정 (Chain-of-Thought, CoT) 을 교사로 활용하여, 이미지 입력에 대한 시각적 경로를 지도하는 자기 증류 (Self-Distillation) 방법을 제안했습니다.

3. 주요 기여 및 발견 (Key Contributions & Findings)

A. 모달리티 갭의 본질: "읽기 (Reading) 는 하지만, 생각 (Thinking) 은 못 한다"

작업 및 데이터 의존성: 모달리티 갭은 보편적이지 않습니다. 합성된 렌더링 이미지에서는 수학 (GSM8K) 등 계산 작업에서 60 점 이상의 성능 저하가 발생하지만, 자연스러운 문서 이미지 (arXiv, 위키백과) 에서는 텍스트 모드와 비슷하거나 오히려 더 높은 성능을 보이는 경우가 많습니다.
렌더링의 교란 효과: 폰트, 해상도, 색상 등 렌더링 선택이 성능에 큰 영향을 미칩니다. 특히 폰트 하나만으로도 정확도가 최대 47%p 까지 변동할 수 있으며, 손글체 (Handwriting) 폰트는 모든 모델에서 가장 큰 성능 저하를 초래했습니다. 이는 모델의 사전 학습 데이터 분포와 평가용 이미지의 불일치 때문입니다.
오류 유형 분석:
- 이미지 모드는 지식 회상 (Knowledge Recall) 이나 추론 (Reasoning) 오류에는 큰 영향을 미치지 않습니다.
- 대신 읽기 관련 오류 (계산 실수, 포맷 오류, 숫자/기호 오인식) 를 1.5 배 이상 증폭시킵니다.
- CoT 추론 붕괴 (Chain-of-Thought Collapse): 이미지 입력 시 모델이 단계별 추론을 건너뛰고 바로 답을 내놓는 경향이 강해지며, 이는 계산 오류를 방치하게 만듭니다.

B. OCR 품질과 성능의 비선형 관계

OCR-2P 실험 결과, 텍스트 추출의 정확도 (OCR 품질) 만으로는 이미지 모드 성능을 완전히 설명할 수 없었습니다. (상관계수 약 0.24).
오히려 구조적 단서 (들여쓰기, 공백 등) 의 상실이나 작업에 결정적인 토큰의 오인식이 성능 저하의 더 큰 원인이었습니다.

C. 자기 증류 (Self-Distillation) 를 통한 갭 해소

모델이 텍스트 모드에서 생성한 고품질의 CoT 추론 경로를 이미지 입력과 짝지어 학습시킴으로써 모달리티 갭을 획기적으로 줄였습니다.
LM-only(언어 모델만) 적응이 가장 중요한 역할을 했으며, 비전 인코더 (ViT) 적응은 추가적인 이점이 상대적으로 적었습니다.

4. 실험 결과 (Results)

성능 향상: GSM8K 벤치마크에서 이미지 모드 정확도가 **30.71% 에서 92.72%**로 급격히 상승하여 텍스트 모드 (93.56%) 와 거의 동등한 수준을 달성했습니다.
범용성: GSM8K 에서 학습된 모델이 다른 벤치마크 (ARC, MMLU, HumanEval) 로 전이되었을 때도 성능이 유지되거나 오히려 개선되었으며, **파괴적 망각 (Catastrophic Forgetting)**이 발생하지 않았습니다.
렌더링 민감도: 해상도가 낮아져도 성능이 유지되는 임계점이 존재하며, 특정 모델 (InternVL3.5) 은 해상도 변화에 거의 영향을 받지 않는 것을 확인했습니다.

5. 의의 및 결론 (Significance)

체계적인 진단: 기존 연구가 간과했던 '렌더링 아티팩트'와 '추론 붕괴'가 모달리티 갭의 주원인임을 규명했습니다. 즉, MLLM 은 시각적 텍스트를 '읽는' 데는 문제가 있지만, 그 내용을 '이해하고 추론하는' 능력 자체는 손상되지 않았습니다.
실용적인 해결책: 아키텍처를 완전히 재설계하거나 대규모 데이터로 다시 학습할 필요 없이, **자기 증류 (Self-Distillation)**라는 간단한 기법으로 기존 모델의 성능을 극적으로 개선할 수 있음을 증명했습니다.
벤치마크 가이드: 시각 텍스트 평가 시 렌더링 설정 (폰트, 해상도 등) 이 결과에 미치는 영향을 통제하고 보고해야 함을 강조했습니다.

결론적으로, 이 연구는 픽셀 기반 텍스트 이해가 근본적으로 불가능한 것이 아니라, 현재 모델이 시각적 입력에 최적화되지 않았을 뿐임을 보여주며, 향후 다중 모달 모델의 발전 방향에 중요한 통찰을 제공합니다.