PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

이 논문은 최종 정답의 정확성뿐만 아니라 시각적 증거에 기반한 추론 과정 자체의 정합성을 강화하여 할루시네이션을 줄이고 시각적 추론의 신뢰성을 높이는 PaLMR 프레임워크를 제안합니다.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 문제: "눈을 감고 추측하는 AI"

지금까지의 인공지능 (AI) 은 문제를 풀 때 정답만 맞추면 칭찬을 받았습니다. 마치 시험지 채점에서 정답란 (O/X) 만 보고 점수를 매기는 것과 같아요.

하지만 여기서 치명적인 문제가 생깁니다.

상황: AI 가 그림을 보고 "파란색 공이 3 개 있다"고 말했는데, 실제로는 2 개뿐입니다.
AI 의 행동: "아, 내가 실수했네? 하지만 정답은 2 개니까 2 라고 적자!"
결과: 정답은 맞췄지만, 생각 과정 (추론) 은 완전히 엉터리가 됩니다.

이걸 논문에서는 **'할루시네이션 (Hallucination, 환각)'**이라고 부릅니다. AI 가 그림을 제대로 보지 않고, 머릿속의 상상이나 텍스트 기억만으로 답을 맞춰버리는 거죠. 마치 눈을 감고 그림을 보고 "아, 여기 개가 있겠지?"라고 추측하는 것과 같아요.


💡 해결책: PaLMR (Process Alignment for Multimodal Reasoning)

이 문제를 해결하기 위해 등장한 것이 바로 PaLMR입니다. 이름 그대로 **'다중 모달 추론을 위한 과정 정렬'**을 의미합니다.

이걸 요리사에 비유해 볼까요?

  • 기존 AI (GRPO 등): "요리 결과물이 맛있으면 (정답이 맞으면) 점수 100 점!"이라고 합니다. 중간에 양파를 안 넣거나, 소금 대신 설탕을 넣어도 결과물이 맛만 있으면 OK 입니다.
  • PaLMR: "결과물이 맛있을 뿐만 아니라, 재료를 제대로 보고, 순서대로, 정확하게 요리했는지도 확인한다!"라고 합니다.

PaLMR 은 AI 가 정답을 맞출 때, 그 과정이 눈으로 본 사실과 일치하는지를 엄격하게 검사합니다.


🛠️ PaLMR 이 어떻게 작동할까? (두 가지 핵심 단계)

PaLMR 은 두 가지 강력한 도구를 사용합니다.

1. 📸 "눈을 뜨게 하는" 데이터 준비 (PaDLayer)

AI 가 훈련을 시작하기 전에, 먼저 정확한 설명서를 만들어줍니다.

  • 기존 방식: AI 가 스스로 그림을 보고 "뭔가 있네?"라고 추측하게 둡니다.
  • PaLMR 방식: 강력한 AI(예: Gemini) 를 시켜 그림을 정밀하게 묘사합니다. "파란 원기둥 2 개, 초록 원기둥 1 개, 보라색 공 1 개"처럼 사실 (Fact) 을 나열한 설명서를 만듭니다.
  • 효과: 이제 AI 는 "내가 본 게 맞나?"를 이 설명서와 비교하며 훈련할 수 있습니다.

2. 🏆 "과정까지 심판하는" 훈련 방식 (PaOLayer & V-GRPO)

훈련할 때 AI 가 답을 내는 과정을 실시간으로 심판합니다.

  • 심판 규칙: "정답이 맞더라도, 그림을 잘못 봤다면 (예: 원기둥을 공이라고 함) 점수 0 점!"
  • 비유: 축구 경기에서 골을 넣었어도, 공을 손으로 만졌다면 (반칙) 골이 무효가 되는 것과 같습니다.
  • V-GRPO: 이 심판 방식을 강화학습 (RL) 에 적용한 기술입니다. AI 가 "눈을 뜨고 (시각 정보를 정확히 파악하고) 생각 (추론) 을 해야만" 보상을 받도록 만듭니다.

🌟 왜 이것이 중요할까요?

이전까지의 AI 는 **"정답만 맞으면 OK"**였기 때문에, 가끔은 운 좋게 정답을 맞추거나 지식만 외워서 답을 내는 경우가 많았습니다. 하지만 PaLMR 을 적용한 AI 는 다음과 같이 변합니다.

  1. 신뢰성 UP: "내가 이 답을 낸 이유는 그림에 저렇게 보였기 때문이다"라고 논리적으로 설명할 수 있습니다.
  2. 실수 감소: 그림을 잘못 보거나 숫자를 세는 실수를 크게 줄였습니다.
  3. 해석 가능성: AI 가 왜 그런 결론을 내렸는지 인간이 따라가기 쉽습니다.

📊 실제 성과: "눈을 뜨고 생각한" AI 의 승리

논문에 따르면, PaLMR 을 적용한 AI(70 억 개의 파라미터를 가진 Qwen2.5-VL) 는 다음과 같은 결과를 보였습니다.

  • 할루시네이션 (환각) 감소: 그림을 잘못 보는 경우가 크게 줄었습니다.
  • 정답률 향상: 단순히 과정만 바꾼 게 아니라, 정답을 맞추는 능력도 함께 좋아졌습니다.
  • 다른 모델보다 우수: 기존에 나왔던 다른 최신 AI 들보다 시각 추론 능력에서 더 뛰어난 성적을 냈습니다.

🎓 결론: "정답보다 과정이 중요하다"

PaLMR 은 인공지능에게 **"정답을 맞히는 것"보다 "정답에 도달하는 과정이 사실에 기반해야 한다"**는 교훈을 주었습니다.

마치 학생에게 시험지 채점만 해주는 게 아니라, 풀이 과정까지 꼼꼼히 확인하며 가르치는 선생님과 같습니다. 이렇게 훈련된 AI 는 앞으로 더 복잡한 문제를 풀 때, 눈을 감고 추측하지 않고, 눈으로 보고 논리적으로 생각할 수 있게 될 것입니다.

이 기술은 의료 진단, 과학 연구, 자율 주행처럼 실수하면 안 되는 분야에서 AI 가 더욱 신뢰할 수 있는 파트너가 되는 데 큰 역할을 할 것입니다! 🚀👁️🧠