Each language version is independently generated for its own context, not a direct translation.

🧠 눈과 뇌를 함께 키우는 AI: 'Perception-R1' 이야기

안녕하세요! 오늘 소개해 드릴 논문은 **"AI 가 그림을 제대로 '보는' 법을 배우는 새로운 방법"**에 대한 것입니다. 제목은 Perception-R1입니다.

이 논문의 핵심 아이디어를 요리사, 학생, 그리고 시험 감독관의 비유로 쉽게 설명해 드릴게요.

1. 문제: "정답은 맞는데, 그림은 못 봤어요!" 🤔

지금까지의 AI(멀티모달 대형 언어 모델) 들은 수학 문제를 풀 때, 정답이 맞으면 칭찬을 받았습니다. 마치 시험에서 점수만 보고 "잘했어!"라고 하는 것과 같아요.

하지만 문제는 AI 가 그림을 잘못 봤을 때입니다.

상황: AI 가 그림 속의 '반지름'을 '지름'으로 착각하거나, '직각'을 '예각'으로 잘못 보더라도, 운 좋게 정답을 맞췄다면 AI 는 "내가 잘 봤어!"라고 착각하게 됩니다.
결과: AI 는 정답을 맞출 수는 있지만, **그림을 보는 능력 (지각 능력)**은 그대로여서, 조금만 다른 문제가 나오면 다시 틀리게 됩니다.

이 논문의 저자들은 **"정답만 맞춘다고 해서 AI 가 그림을 잘 보는 건 아니다"**라고 지적하며, 기존 방식의 한계를 지적했습니다.

2. 해결책: "눈을 감고 귀를 막지 마세요!" 👁️👂

저자들은 새로운 방법 Perception-R1을 제안했습니다. 이 방법은 AI 를 훈련시킬 때 정답뿐만 아니라 그림을 어떻게 보았는지도 함께 평가해 줍니다.

🍳 요리사 비유 (AI 의 훈련 과정)

기존 방식 (정답만 평가): 요리사가 "소금 10g 넣으세요"라고 했을 때, 요리사가 소금 100g을 넣었는데 맛을 못 봐서 "맛있다"고만 했다면? 요리사는 계속 소금을 많이 넣는 나쁜 습관을 고치지 못합니다.
새로운 방식 (Perception-R1): 요리사가 소금 100g을 넣었을 때, "소금 양이 틀렸어! 하지만 맛은 맞았네"라고만 하지 않고, **"소금 양을 정확히 재는 법 (그림 보는 법) 을 먼저 배워라"**라고 가르칩니다.

🎓 학생과 선생님 비유

기존 AI: 문제를 풀다가 "아, 이 삼각형은 직각삼각형이야!"라고 말했지만, 사실 그림을 보면 직각이 아닌데도 불구하고 정답을 맞췄습니다. 선생님은 "정답이니까 O!"라고만 합니다.
Perception-R1: 선생님이 **"그림을 잘 봐! 저건 직각이 아니야. 하지만 네가 그걸 보고 '직각이 아니다'라고 정확히 지적했으니, 그 부분도 점수를 줄게"**라고 합니다.

3. 어떻게 작동할까요? (3 단계 과정)

이 방법은 3 가지 단계로 이루어져 있습니다.

정답의 길잡이 만들기 (Visual Annotations):
- 먼저, 아주 똑똑한 AI(또는 인간 전문가) 가 문제를 풀면서 **"이 그림에는 A 라는 선이 있고, B 라는 각도가 90 도야"**라고 그림의 중요한 특징들을 텍스트로 적어둡니다. 이를 '그림 설명 메모'라고 부르겠습니다.
AI 가 그림을 설명하게 하기:
- 훈련 중인 AI 가 문제를 풀 때, 단순히 답만 내는 게 아니라 **"이 그림을 보니 A 선이 있고 B 각도가 있네요"**라고 그림을 설명하는 과정을 거치게 합니다.
엄격한 감독관 (Judging LLM) 의 검사:
- 여기서 중요한 역할이 감독관 AI입니다. 감독관은 AI 가 쓴 설명과 우리가 미리 만들어둔 '그림 설명 메모'를 비교합니다.
- "AI 가 그림의 중요한 특징을 다 잘 봤나?"를 체크해서 점수를 줍니다.
- 정답이 맞았지만 그림을 잘못 봤다면? 점수를 깎습니다.
- 그림을 정확히 봤다면? 정답 여부와 상관없이 칭찬 (보상) 을 줍니다.

4. 놀라운 결과: 적은 데이터로 대박! 🚀

이 방법을 사용하면 어떤 일이 일어날까요?

적은 데이터로 큰 성과: 보통 AI 를 똑똑하게 만들려면 수만, 수백만 개의 데이터가 필요하지만, 이 방법은 단 1,442 개의 문제만으로도 다른 수만 개의 데이터를 쓴 AI 들보다 더 좋은 성적을 냈습니다.
진짜 이해: AI 가 그림을 단순히 '기억'하는 게 아니라, 진짜로 그림을 '이해'하고 문제를 풀게 됩니다.
범용성: 수학 문제뿐만 아니라, 일반 상식이나 복잡한 그림이 있는 문제에서도 AI 의 실력이 크게 향상되었습니다.

5. 한 줄 요약 💡

"정답만 맞추는 AI 는 '운'이 좋은 학생일 뿐이지만, 그림을 제대로 보는 법을 가르쳐 주는 AI 는 '진짜' 똑똑한 학생이 됩니다."

Perception-R1 은 AI 에게 **"정답을 맞추기 전에, 먼저 세상을 제대로 바라보라"**고 가르치는 혁신적인 방법입니다. 앞으로 이 기술을 통해 AI 는 더 복잡한 현실 세계의 문제를 해결하는 데 큰 도움을 줄 것으로 기대됩니다!

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

멀티모달 대형 언어 모델 (MLLMs) 의 추론 능력을 향상시키기 위해 최근 **검증 가능한 보상 강화 학습 (RLVR, Reinforcement Learning with Verifiable Rewards)**이 활발히 적용되고 있습니다. 그러나 기존 RLVR 방법론은 **정답의 정확성 (Answer Accuracy)**에만 기반한 보상을 사용하여 모델을 학습시킵니다.

이 논문은 다음과 같은 핵심 문제를 제기합니다:

지각 능력의 간과: 복잡한 멀티모달 추론은 '멀티모달 지각 (Multimodal Perception, 이미지 내용 정확히 이해)'과 '논리적 추론 (Logical Reasoning)'으로 구성됩니다. 기존 RLVR 은 정답만 맞으면 보상을 주기 때문에, 모델이 이미지를 잘못 인식하더라도 (Perception Error) 우연히 정답을 맞추거나 추론 과정에서 오류를 수정하지 못하는 경우가 발생합니다.
통계적 검증: McNemar 검정을 통해 기존 RLVR 로 학습된 모델들은 원래 모델에 비해 멀티모달 지각 능력이 통계적으로 유의미하게 향상되지 않았음을 발견했습니다. 이는 추론 능력 향상의 병목 현상으로 작용합니다.

2. 방법론 (Methodology: Perception-R1)

저자들은 이 문제를 해결하기 위해 Perception-R1을 제안합니다. 이는 기존 RLVR 파이프라인에 **시각적 지각 보상 (Visual Perception Reward)**을 추가하여, 모델이 이미지 내용을 정확하게 인식하도록 유도하는 새로운 프레임워크입니다.

핵심 구성 요소:

시각적 주석 (Visual Annotations) 수집:
- 고품질 멀티모달 추론 데이터 (CoT, Chain-of-Thought) 에서 이미지와 관련된 핵심 정보 (객체, 관계, 수치 등) 를 추출합니다.
- 강력한 MLLM 이 생성한 CoT 궤적에서 텍스트-only LLM 을 사용하여 이미지 이해에 필수적인 '시각적 주석 (Visual Annotations)'을 추출합니다. (예: "선분 GE 는 10 입니다", "GE 는 DF 에 수직입니다" 등)
- 이 주석들은 정답과 유사하게 지각 보상을 부여하기 위한 '참조 (Reference)' 역할을 합니다.
시각적 지각 보상 (Visual Perception Reward, $r_v$ ):
- 기존 RLVR 의 보상 함수에 새로운 항을 추가합니다: $r(y, a, V) = \alpha \cdot r_f + \beta \cdot r_a + \gamma \cdot r_v + r_p$ .
- $r_v$ 계산: 모델이 생성한 응답과 추출된 시각적 주석 ( $V$ ) 간의 일관성을 **판단용 LLM (Judging LLM)**이 평가합니다. 응답이 주석에 포함된 시각적 사실을 정확히 언급했는지 (1) 또는 누락/오류인지 (0) 를 판단하여 점수를 부여합니다.
- 이는 모델이 단순히 정답만 맞추는 것이 아니라, 이미지를 올바르게 '보고' 설명하는 과정을 보상받도록 유도합니다.
학습 파이프라인:
- GRPO (Group Relative Policy Optimization): 기존 RLVR 알고리즘을 사용하되, 위와 같이 수정된 보상 함수를 적용하여 정책을 최적화합니다.
- 반복 패널티 (Repetition Penalty): 보상 신호가 모델의 반복적인 생성을 유발할 수 있으므로 이를 방지하기 위한 패널티를 추가합니다.

3. 주요 기여 (Key Contributions)

RLVR 의 한계 규명: 기존 정확도 기반 RLVR 이 멀티모달 지각 능력을 통계적으로 유의미하게 향상시키지 못한다는 것을 McNemar 검정을 통해 실증적으로 증명했습니다.
Perception-R1 제안: 정답 정확도 외에 시각적 지각 보상을 도입하여 지각과 추론 능력을 동시에 향상시키는 새로운 RLVR 프레임워크를 개발했습니다. 이는 보상 희소성 (Reward Sparsity) 문제를 완화합니다.
데이터 효율성 극대화: 거대한 데이터셋 (20 만 개 이상) 이 필요한 기존 방법 (Vision-R1 등) 과 달리, 단 1,442 개의 훈련 데이터만으로도 최상위 성능을 달성했습니다.

4. 실험 결과 (Results)

벤치마크 성능: MathVista, MathVerse, MathVision, WeMath 등 수학 추론 벤치마크와 MMMU, MMStar 등 일반 멀티모달 벤치마크에서 가장 우수한 성능을 기록했습니다.
- 특히 Vision-R1(20 만 개 데이터 사용) 보다 100 배 이상 적은 데이터로 더 좋은 성능을 냈습니다.
- MM-Eureka(1.5 만 개 데이터) 보다 10 배 이상 적은 데이터로 더 높은 정확도를 달성했습니다.
지각 능력 향상:
- "Vision-Only" (텍스트 없이 이미지만으로 해결하는) 서브셋에서 기존 모델 대비 큰 폭의 성능 향상을 보였습니다.
- McNemar 검정 결과, Perception-R1 은 지각 오류가 통계적으로 유의미하게 감소하여 지각 능력이 실제로 향상되었음을 입증했습니다.
Ablation Study: 시각적 지각 보상과 반복 패널티를 제거할 경우 성능이 저하됨을 확인하여 두 구성 요소의 필수성을 입증했습니다. 또한, 판단용 LLM 의 성능이 결과 모델의 성능에 직접적인 영향을 미친다는 것을 확인했습니다.

5. 의의 및 중요성 (Significance)

지각 - 추론의 분리 및 통합: 멀티모달 AI 의 발전에 있어 '지각 (Perception)'이 '추론 (Reasoning)'의 필수 전제 조건임을 강조하고, 이를 강화 학습 단계에서 명시적으로 최적화하는 방법을 제시했습니다.
효율적인 학습 패러다임: 방대한 데이터와 계산 자원을 소모하는 기존 방식에서 벗어나, **고품질의 보상 신호 (시각적 주석)**를 통해 적은 데이터로 고품질 추론 모델을 만드는 새로운 방향성을 제시했습니다.
실용적 가치: 교육, 의료, 과학 등 복잡한 시각 정보를 이해해야 하는 분야에서 MLLM 의 신뢰성과 정확성을 높이는 데 기여할 것으로 기대됩니다.

요약하자면, Perception-R1은 MLLM 이 "정답을 맞추기 위해"가 아니라 "이미지를 정확히 이해하기 위해" 사고하도록 유도하는 새로운 보상 메커니즘을 통해, 데이터 효율성과 추론 성능을 동시에 비약적으로 향상시킨 획기적인 연구입니다.

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward