SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 그림 속 글자를 정말로 '읽을' 수 있을까?"**라는 아주 중요한 질문에서 시작합니다.

요약하자면, 연구팀은 Multimodal Large Language Models(MLLMs, 멀티모달 거대 언어 모델) 이라고 불리는 최신 AI 들이 그림 속 글자를 실제로 눈으로 읽는 게 아니라, 질문을 텍스트로 받았을 때 그걸 외워서 답하는 '단순 암기'나 '지름길'을 쓰고 있었다는 것을 발견했습니다.

이 문제를 해결하기 위해 개발한 **'SimpleOCR(심플 OCR)'**이라는 기술을 일상적인 비유로 설명해 드릴게요.

1. 문제: "눈을 감고도 답하는 AI" (모달리티 게으름)

상상해 보세요. 시험을 치르는 학생이 있습니다.

일반적인 상황: 선생님이 "이 그림을 보고 답해줘"라고 말로 물어보고, 그림을 보여줍니다.
AI 의 행동: 이 학생은 그림 속 글자를 자세히 보지 않고, "아, 선생님이 '어떤 자전거가 가장 비싼가?'라고 물었구나. 내가 전에 외운 답은 '빨간 자전거'였지!"라고 질문 내용만 기억해서 답을 맞춥니다. 그림 속의 글자가 뭐라고 적혀 있는지 전혀 안 봐도 정답을 맞출 수 있는 거죠.

연구팀은 이를 **'모달리티 게으름 (Modality Laziness)'**이라고 불렀습니다. AI 는 그림을 보는 게 귀찮으니까, 텍스트로 들어온 질문만 보고 지름길로 답을 내는 것입니다.

2. 진단 실험: "질문을 그림 속에 숨겨라" (시각화 질문, VQ)

이게 진짜 눈으로 읽는 건지 확인하기 위해 연구팀은 아주 교묘한 실험을 했습니다.

실험 방법: 질문을 말로 하지 않고, 질문 글자 자체를 그림 위에 직접 적어 넣었습니다. 그리고 AI 에게는 "그림 속 질문에 답해줘"라고만 아주 일반적인 지시만 내렸습니다.
결과: AI 는 당황했습니다. 질문을 텍스트로 받을 수 없으니, 반드시 그림 속 글자를 눈으로 읽어서 답해야만 합니다. 그런데 놀랍게도, 이 상황에서 AI 의 성능이 최대 12.7% 나 떨어졌습니다.
의미: "아, 이 AI 는 그림을 읽는 능력이 없었던 게 아니라, 읽지 않으려 했던 거였구나!"라는 결론이 나왔습니다.

3. 해결책: SimpleOCR (강제 눈 훈련)

이제 이 게으른 AI 를 훈련시켜야 합니다. 연구팀은 **'SimpleOCR'**이라는 방법을 제안했습니다.

비유: "눈을 가리고 훈련하는 운동선수"
- 보통 운동선수는 경기장에서 시합을 치르지만, 훈련할 때는 눈을 가리고 감각을 극대화하는 훈련을 하기도 합니다.
- SimpleOCR 은 훈련 데이터 전체를 질문이 그림 위에 적힌 형태로 바꿔버립니다.
- AI 는 훈련하는 내내 "질문이 텍스트로 주어질 수 없다"는 사실을 깨닫고, 반드시 그림 속 글자를 읽어야만 점수를 받을 수 있게 됩니다.
- 마치 글자를 읽지 않으면 게임이 안 되는 상황을 만들어서, AI 가 어쩔 수 없이 '그림 읽기' 근육을 키우게 하는 것입니다.

4. 놀라운 효과: "적은 데이터로 대박"

이 방법은 몇 가지 놀라운 장점이 있습니다.

아무것도 바꿀 필요 없음 (플러그 앤 플레이): AI 의 구조를 뜯어고칠 필요도, 복잡한 수식을 추가할 필요도 없습니다. 그냥 데이터를 그림 위에 글자를 적는 형태로만 바꾸면 됩니다.
데이터 효율성: 다른 최신 AI 들은 수십만 개의 데이터를 먹여야 잘했지만, SimpleOCR 은 단 8,500 개의 데이터만으로도 기존 방법보다 훨씬 좋은 성능을 냈습니다. (약 30 배 적은 데이터!)
실전에서도 통함: 훈련 때는 질문이 그림에 적혀 있었지만, 실제 시험 (일반적인 질문) 을 볼 때는 질문이 텍스트로 와도 AI 가 그림을 꼼꼼히 읽는 습관이 생겼기 때문에, 오히려 더 정확한 답을 내놓습니다.

5. 결론: "진짜 독해 능력을 기르자"

이 논문의 핵심 메시지는 이렇습니다.
"지금의 AI 는 질문을 보고 '아, 이거 답은 이거야'라고 외우는 암기왕일 뿐, 그림을 진짜로 독해하는 능력은 부족합니다. SimpleOCR 은 AI 에게 강제로 그림을 읽게 함으로써 그 능력을 깨워주는 '눈을 뜨게 하는 훈련'입니다."

이 기술을 통해 AI 는 이제 그림 속의 작은 글자나 복잡한 차트도 진짜로 이해하고, 더 똑똑하고 정확한 답변을 할 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

핵심 문제: 모달리티 게으름 (Modality Laziness)
최근 멀티모달 대규모 언어 모델 (MLLMs) 은 강력한 OCR(광학 문자 인식) 능력을 보유하고 있음에도 불구하고, 실제 추론 작업에서 이미지 내의 텍스트를 진정으로 '읽고' 활용하지 않는 현상이 발견되었습니다.

현상: 모델이 이미지 내의 텍스트를 직접 분석하기보다, 텍스트 프롬프트 (질문) 에 포함된 언어적 사전 지식 (Linguistic Priors) 이나 파라미터 기반의 단축키 (Shortcuts) 에 의존하여 답변을 생성합니다.
진단 (Visualized-Question, VQ): 저자들은 이를 진단하기 위해 시각화된 질문 (VQ) 설정을 도입했습니다. 이는 질문 텍스트를 이미지 위에 직접 렌더링하여 텍스트 채널을 제거하고, 모델이 오직 시각적 텍스트만 보고 답하도록 강제하는 방식입니다.
결과: Qwen2.5-VL-7B 와 같은 최신 모델에서도 VQ 설정 시 성능이 최대 **12.7%**까지 급격히 하락하는 것을 확인했습니다. 이는 모델이 OCR 능력을 보유하고 있음에도 불구하고 추론 과정에서 이를 활용하지 않는 '활용도 격차 (Capability-Utilization Gap)'가 존재함을 의미합니다.

2. 방법론 (Methodology)

저자들은 이 격차를 해결하기 위해 SimpleOCR이라는 플러그 앤 플레이 (Plug-and-Play) 학습 전략을 제안했습니다.

핵심 아이디어: 학습 데이터의 구조를 변경하여 텍스트 기반 단축키를 물리적으로 차단하고, 모델이 시각적 텍스트 추출 경로를 활성화하도록 강제합니다.
시각적 질문 렌더링 (Visual Question Rendering, $T_{render}$ ):
- 학습 샘플 $(x_{img}, q_{text})$ 에서 질문 텍스트 $q_{text}$ 를 제거하고, 이를 이미지 $x_{img}$ 의 하단이나 적절한 위치에 직접 렌더링합니다.
- 랜덤화 전략: 폰트, 색상, 크기 (18~42pt), 언어 (CJK 지원 포함) 등을 무작위로 샘플링하여 렌더링합니다. 이는 모델이 특정 스타일의 텍스트 패턴을 암기하는 것을 방지하고, 일반적인 OCR 능력을 학습하게 합니다.
- 입력 형식: 렌더링된 이미지와 "이미지 속 질문에 답하세요"와 같은 범용 지시문 (Generic Prompt) 만을 입력으로 사용합니다.
학습 전략:
- 구조적 제약: 학습 시 표준 입력 (텍스트 + 이미지) 과 시각적 질문 입력 (이미지 + 렌더링된 텍스트) 을 섞지 않고, **100% 시각적 질문 형식 (VQ)**으로만 학습합니다.
- GRPO 적용: 그룹 상대 정책 최적화 (GRPO) 알고리즘과 결합하여, 렌더링된 시각적 컨텍스트에서 샘플링된 응답들에 대해 보상을 계산하고 정책을 업데이트합니다.
- 추론 (Inference): 학습은 VQ 형식으로 하지만, 추론 시에는 일반적인 표준 형식 (텍스트 + 이미지) 으로 평가합니다. 이는 모델이 형식에 구애받지 않는 범용적인 시각적 추론 능력을 내재화했음을 검증합니다.

3. 주요 기여 (Key Contributions)

모달리티 게으름의 정량화: MLLM 이 강력한 OCR 능력을 보유함에도 불구하고, 텍스트 프롬프트가 존재할 때 시각적 증거를 무시하는 '활용도 격차'를 진단하고 정량화했습니다.
SimpleOCR 전략 제안: 아키텍처 변경이나 추가 손실 함수 없이, 데이터 전처리 (렌더링) 만으로 모델이 시각적 텍스트를 적극적으로 활용하도록 유도하는 효율적인 학습 방법을 제시했습니다.
플러그 앤 플레이 통합성: 기존 강화학습 (RL) 프레임워크 (예: NoisyRollout) 와 호환되어 시너지 효과를 낼 수 있음을 입증했습니다.
극도의 데이터 효율성: 기존 RL 기반 방법론들이 26 만 개 이상의 샘플을 필요로 하는 반면, SimpleOCR 은 **8,500 개 (30 배 적은 데이터)**의 샘플만으로도 우수한 성능을 달성했습니다.

4. 실험 결과 (Results)

OOD(분포 외) 일반화 성능:
- MathVerse, MathVision, MathVista, HallusionBench 등 4 가지 대표적인 OOD 벤치마크에서 베이스 모델 (Qwen2.5-VL) 대비 5.4% 향상, 기존 GRPO 대비 2.7% 향상 기록.
- 특히 시각적 텍스트 의존도가 높은 ChartQA에서는 81.6% 의 정확도를 달성하여 기존 GRPO(79.5%) 를 능가했습니다.
데이터 효율성:
- 8.5K 샘플로 260K+ 샘플을 사용하는 최신 RL 방법론 (R1-VL 등) 을 능가하는 성능을 보였습니다.
모델 스케일 확장성:
- 3B 및 7B 모델 모두에서 일관된 성능 향상을 보였으며, 모델 크기가 커질수록 '모달리티 게으름'이 여전히 존재함을 확인하고 이를 보정하는 효과가 있음을 입증했습니다.
혼합 전략의 실패 (Ablation Study):
- 표준 입력과 VQ 입력을 섞어 학습하는 경우 (Mixed Strategy) 오히려 성능이 저하되는 'U 자형 곡선' 현상을 관찰했습니다. 이는 상충되는 학습 신호가 모델의 혼란을 초래하며, 100% VQ 학습이 시각적 경로를 최적화하는 데 필수적임을 보여줍니다.

5. 의의 및 결론 (Significance)

이 논문은 MLLM 의 추론 실패 원인이 '지각 능력 (Perception) 의 부족'이 아니라 '실행 선호도 (Execution Preference)'의 문제임을 지적했습니다.

시각적 근거의 활성화: SimpleOCR 은 모델이 텍스트 단축키에 의존하는 것을 구조적으로 차단함으로써, 모델이 내재된 OCR 능력을 실제 추론 과제로 끌어내는 '활성화 전략'을 제공합니다.
실용성: 복잡한 아키텍처 수정 없이 데이터 전처리만으로 구현 가능하여, 다양한 MLLM 에 즉시 적용할 수 있는 실용적인 솔루션입니다.
향후 방향: 텍스트 기반 단축키를 제거하고 시각적 근거에 기반한 견고한 추론을 가능하게 함으로써, 문서 분석, 차트 이해, 기하학적 추론 등 시각 텍스트가 중요한 분야에서 MLLM 의 신뢰성을 크게 높일 수 있습니다.

요약하자면, SimpleOCR은 MLLM 이 "이미지를 읽는 능력"을 가지고 있음에도 불구하고 이를 사용하지 않는 게으름을, 질문을 이미지 위에 직접 그려넣는 단순하지만 강력한 구조적 제약을 통해 해결한 획기적인 연구입니다.

SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read

1. 문제: "눈을 감고도 답하는 AI" (모달리티 게으름)

2. 진단 실험: "질문을 그림 속에 숨겨라" (시각화 질문, VQ)

3. 해결책: SimpleOCR (강제 눈 훈련)

4. 놀라운 효과: "적은 데이터로 대박"

5. 결론: "진짜 독해 능력을 기르자"

1. 문제 정의 (Problem Definition)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Generating Counterfactual Patient Timelines from Real-World Data

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models