PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 문제: "눈을 감고 추측하는 AI"

지금까지의 인공지능 (AI) 은 문제를 풀 때 정답만 맞추면 칭찬을 받았습니다. 마치 시험지 채점에서 정답란 (O/X) 만 보고 점수를 매기는 것과 같아요.

하지만 여기서 치명적인 문제가 생깁니다.

상황: AI 가 그림을 보고 "파란색 공이 3 개 있다"고 말했는데, 실제로는 2 개뿐입니다.
AI 의 행동: "아, 내가 실수했네? 하지만 정답은 2 개니까 2 라고 적자!"
결과: 정답은 맞췄지만, 생각 과정 (추론) 은 완전히 엉터리가 됩니다.

이걸 논문에서는 **'할루시네이션 (Hallucination, 환각)'**이라고 부릅니다. AI 가 그림을 제대로 보지 않고, 머릿속의 상상이나 텍스트 기억만으로 답을 맞춰버리는 거죠. 마치 눈을 감고 그림을 보고 "아, 여기 개가 있겠지?"라고 추측하는 것과 같아요.

💡 해결책: PaLMR (Process Alignment for Multimodal Reasoning)

이 문제를 해결하기 위해 등장한 것이 바로 PaLMR입니다. 이름 그대로 **'다중 모달 추론을 위한 과정 정렬'**을 의미합니다.

이걸 요리사에 비유해 볼까요?

기존 AI (GRPO 등): "요리 결과물이 맛있으면 (정답이 맞으면) 점수 100 점!"이라고 합니다. 중간에 양파를 안 넣거나, 소금 대신 설탕을 넣어도 결과물이 맛만 있으면 OK 입니다.
PaLMR: "결과물이 맛있을 뿐만 아니라, 재료를 제대로 보고, 순서대로, 정확하게 요리했는지도 확인한다!"라고 합니다.

PaLMR 은 AI 가 정답을 맞출 때, 그 과정이 눈으로 본 사실과 일치하는지를 엄격하게 검사합니다.

🛠️ PaLMR 이 어떻게 작동할까? (두 가지 핵심 단계)

PaLMR 은 두 가지 강력한 도구를 사용합니다.

1. 📸 "눈을 뜨게 하는" 데이터 준비 (PaDLayer)

AI 가 훈련을 시작하기 전에, 먼저 정확한 설명서를 만들어줍니다.

기존 방식: AI 가 스스로 그림을 보고 "뭔가 있네?"라고 추측하게 둡니다.
PaLMR 방식: 강력한 AI(예: Gemini) 를 시켜 그림을 정밀하게 묘사합니다. "파란 원기둥 2 개, 초록 원기둥 1 개, 보라색 공 1 개"처럼 사실 (Fact) 을 나열한 설명서를 만듭니다.
효과: 이제 AI 는 "내가 본 게 맞나?"를 이 설명서와 비교하며 훈련할 수 있습니다.

2. 🏆 "과정까지 심판하는" 훈련 방식 (PaOLayer & V-GRPO)

훈련할 때 AI 가 답을 내는 과정을 실시간으로 심판합니다.

심판 규칙: "정답이 맞더라도, 그림을 잘못 봤다면 (예: 원기둥을 공이라고 함) 점수 0 점!"
비유: 축구 경기에서 골을 넣었어도, 공을 손으로 만졌다면 (반칙) 골이 무효가 되는 것과 같습니다.
V-GRPO: 이 심판 방식을 강화학습 (RL) 에 적용한 기술입니다. AI 가 "눈을 뜨고 (시각 정보를 정확히 파악하고) 생각 (추론) 을 해야만" 보상을 받도록 만듭니다.

🌟 왜 이것이 중요할까요?

이전까지의 AI 는 **"정답만 맞으면 OK"**였기 때문에, 가끔은 운 좋게 정답을 맞추거나 지식만 외워서 답을 내는 경우가 많았습니다. 하지만 PaLMR 을 적용한 AI 는 다음과 같이 변합니다.

신뢰성 UP: "내가 이 답을 낸 이유는 그림에 저렇게 보였기 때문이다"라고 논리적으로 설명할 수 있습니다.
실수 감소: 그림을 잘못 보거나 숫자를 세는 실수를 크게 줄였습니다.
해석 가능성: AI 가 왜 그런 결론을 내렸는지 인간이 따라가기 쉽습니다.

📊 실제 성과: "눈을 뜨고 생각한" AI 의 승리

논문에 따르면, PaLMR 을 적용한 AI(70 억 개의 파라미터를 가진 Qwen2.5-VL) 는 다음과 같은 결과를 보였습니다.

할루시네이션 (환각) 감소: 그림을 잘못 보는 경우가 크게 줄었습니다.
정답률 향상: 단순히 과정만 바꾼 게 아니라, 정답을 맞추는 능력도 함께 좋아졌습니다.
다른 모델보다 우수: 기존에 나왔던 다른 최신 AI 들보다 시각 추론 능력에서 더 뛰어난 성적을 냈습니다.

🎓 결론: "정답보다 과정이 중요하다"

PaLMR 은 인공지능에게 **"정답을 맞히는 것"보다 "정답에 도달하는 과정이 사실에 기반해야 한다"**는 교훈을 주었습니다.

마치 학생에게 시험지 채점만 해주는 게 아니라, 풀이 과정까지 꼼꼼히 확인하며 가르치는 선생님과 같습니다. 이렇게 훈련된 AI 는 앞으로 더 복잡한 문제를 풀 때, 눈을 감고 추측하지 않고, 눈으로 보고 논리적으로 생각할 수 있게 될 것입니다.

이 기술은 의료 진단, 과학 연구, 자율 주행처럼 실수하면 안 되는 분야에서 AI 가 더욱 신뢰할 수 있는 파트너가 되는 데 큰 역할을 할 것입니다! 🚀👁️🧠

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

최근 대규모 언어 모델 (LLM) 과 멀티모달 LLM(MLLM) 은 강화 학습 (RL) 을 통해 추론 능력을 크게 향상시켰습니다. 그러나 기존의 강화 학습 기반 멀티모달 모델들은 최종 답변의 정확성 (Outcome Correctness) 에만 초점을 맞추는 보상 설계 방식을 주로 사용합니다.

이로 인해 다음과 같은 심각한 문제가 발생합니다:

할루시네이션된 추론 (Hallucinated Reasoning): 모델이 시각적 증거와 일치하지 않는 잘못된 추론 과정 (예: 이미지에 없는 물체를 언급하거나, 색상을 잘못 인식함) 을 거치더라도, 최종 답변만 맞다면 보상을 받습니다.
신뢰성 부족: 모델이 "왜" 그 답을 도출했는지에 대한 과정이 시각적 사실과 일치하지 않아, 해석 가능성과 신뢰성이 떨어집니다.

기존의 시각적 보상 모델 (VisualPRM 등) 은 인간 선호도 비교에 의존하거나 점별 (point-wise) 평가 방식을 사용하여 편향되거나 불안정할 수 있다는 한계가 있었습니다.

2. 제안 방법론: PaLMR (Methodology)

저자들은 PaLMR (Process Alignment for Multimodal Reasoning) 을 제안합니다. 이는 최종 결과뿐만 아니라 추론 과정 자체를 시각적 사실과 정렬 (Alignment) 시키는 통합 프레임워크입니다. PaLMR 은 크게 두 가지 핵심 계층으로 구성됩니다.

A. 지각 정렬 데이터 계층 (Perception-Aligned Data Layer, PaDLayer)

신뢰할 수 있는 시각적 지상 진실 (Ground Truth) 을 기반으로 한 데이터 구축 파이프라인입니다.

데이터 수집 및 필터링: FineVision 데이터셋에서 19 개 도메인을 샘플링하고, 학습 가능성 (Learnability) 기반 필터링을 통해 노이즈가 많거나 모델이 해결할 수 없는 샘플을 제거하여 고품질 데이터 (약 4,728 개) 를 확보합니다.
구조화된 페이소 지상 진실 (Pseudo Ground Truths): Gemini 와 같은 강력한 MLLM 을 활용하여 이미지에서 객체, 속성, 공간 관계 등을 명시적으로 나열한 구조화된 설명을 생성합니다. 이는 추론 과정의 검증 기준이 됩니다.
참조 샘플링: Best-of-N 전략을 사용하여 모델이 생성한 응답 중 가장 일관된 추론 경로를 참조 (Reference) 로 선정합니다.

B. 과정 정렬 최적화 계층 (Process-Aligned Optimization Layer, PaOLayer)

시각적 충실도를 강화하는 강화 학습 전략인 V-GRPO (Vision-Guided Group Relative Policy Optimization) 를 도입합니다.

쌍별 지각 인식 점수 (Pairwise Perception-Aware Scoring): 기존 점별 평가의 편향을 줄이기 위해, 생성된 추론 경로와 참조 경로를 비교하여 LLM-as-a-Judge(Qwen3-30B) 가 시각적 충실도가 더 높은 경로를 선택하도록 합니다. 이는 이진 (Binary) 신호로 변환됩니다.
계층적 보상 융합 (Hierarchical Reward Fusion):
- 시각적 충실도 점수 ( $S_{p,vis}$ ): 가장 높은 우선순위를 가집니다. 만약 추론 과정에 시각적 할루시네이션이 포함되면, 최종 답변이 정확하더라도 전체 보상을 0 으로 만듭니다.
- 정답 점수 ( $S_{p,ans}$ ) 및 포맷 점수 ( $S_{p,fmt}$ ): 시각적 충실도가 확보된 경우에만 적용됩니다.
- 수식: $R_{V-GRPO} = S_{p,vis} \cdot (\alpha S_{p,ans} + (1-\alpha) S_{p,fmt})$
- 이 구조는 모델이 "먼저 올바르게 보고 (See), 그 다음 올바르게 추론 (Reason)"하도록 강제합니다.

3. 주요 기여 (Key Contributions)

PaLMR 프레임워크: 지각 정렬 데이터 계층과 과정 정렬 최적화 계층을 통합하여, 멀티모달 추론의 과정 전체에 걸쳐 시각적 충실도를 강제하는 최초의 체계적인 접근법 중 하나를 제시했습니다.
V-GRPO 학습 패러다임: GRPO(그룹 상대 정책 최적화) 에 시각적 일관성 보상을 통합하고, 쌍별 비교 (Pairwise Comparison) 를 통해 LLM 판정자의 편향을 줄인 새로운 학습 전략을 제안했습니다.
성능 및 안정성 입증: 소규모 데이터 (약 4.7K) 로도 기존 RL 기반 모델들을 능가하는 성능을 보여주며, 할루시네이션을 획기적으로 줄이고 추론의 신뢰성을 높였습니다.

4. 실험 결과 (Results)

실험은 Qwen2.5-VL-7B를 베이스 모델로 하여 수행되었으며, 다양한 벤치마크에서 검증되었습니다.

주요 벤치마크 성능:
- HallusionBench: 시각적 환각을 측정하는 벤치마크에서 70.9점을 기록하여, 기존 GRPO 기반 모델 (66.7) 과 다른 SOTA 모델들 (MM-Eureka: 69.5, Perception-R1: 70.0) 보다 우수한 성능을 보였습니다.
- MathVerse (Vision Only): 시각적 추론이 필요한 수학 문제에서 47.5점을 기록하여 기존 모델들을 상회했습니다.
- MMMU, MathVista 등: 전반적인 멀티모달 이해 및 추론 능력에서도 경쟁력 있는 성능을 유지하거나 향상시켰습니다.
데이터 효율성: 12K 이상의 데이터를 사용한 OpenVLThinker 와 비교하여, PaLMR 은 4.7K의 고품질 데이터만으로도 더 나은 성능을 달성했습니다.
모델 확장성: 3B 에서 32B 까지의 다양한 Qwen2.5-VL 모델에서 일관된 성능 향상을 보였으나, Qwen3-VL-8B 와 같이 이미 시각 능력이 매우 뛰어난 모델에서는 판정 모델 (Judge Model) 의 한계로 인해 성능 향상 폭이 다소 감소했습니다.
학습 안정성: 시각적 보상을 단순히 '보너스'로 추가하는 방식 (Visual Bonus) 이나 가중치로 섞는 방식 (Visual Mix) 과 달리, PaLMR 의 계층적 보상 구조는 학습 중 정확도 곡선의 진동을 억제하고 안정적인 수렴을 유도했습니다.

5. 의의 및 결론 (Significance)

PaLMR 은 멀티모달 AI 의 신뢰성을 높이기 위한 중요한 전환점을 제시합니다.

과정 중심의 정렬: 단순히 정답을 맞추는 것을 넘어, 추론 과정이 시각적 사실과 일치하는지를 검증하는 메커니즘을 강화 학습에 성공적으로 통합했습니다.
할루시네이션 감소: 모델이 시각적 증거를 무시하고 텍스트적 편향 (Textual Priors) 에 의존하여 답을 맞추는 현상을 효과적으로 차단합니다.
실용성: 인간이 직접 모든 데이터에 라벨링할 필요 없이, 강력한 MLLM 을 활용한 페이소 지상 진실 생성과 쌍별 비교를 통해 확장 가능한 솔루션을 제공합니다.

결론적으로, PaLMR 은 멀티모달 대규모 언어 모델이 더 신뢰할 수 있고 해석 가능하며, 시각적 사실에 기반한 추론을 수행할 수 있도록 하는 원칙적이고 실용적인 경로를 제시합니다.