Each language version is independently generated for its own context, not a direct translation.

🎨 그림과 생각을 함께 잘하는 AI: 'PEPO'란 무엇일까요?

이 논문은 **거대한 시각-언어 모델 **(LVLM)이 어떻게 그림을 보고 논리적으로 추론하는지 더 잘하게 만드는 새로운 방법을 소개합니다. 이 방법을 'PEPO(Perception-Exploration Policy Optimization)라고 부르는데, 쉽게 말해 "**그림을 잘 보고 **(지각)"하는 AI 훈련법입니다.

기존의 AI 훈련 방식과 PEPO 가 어떻게 다른지, 그리고 왜 이것이 중요한지 일상적인 비유로 설명해 드릴게요.

1. 문제: "정답만 맞으면 돼?" vs "어떻게 생각했지?"

기존의 AI 훈련 (RLVR) 은 마치 시험 점수만 보고 학생을 평가하는 것과 비슷했습니다.

기존 방식: 학생이 문제를 풀어서 정답을 맞췄나요? 맞으면 "잘했어!"라고 칭찬하고, 틀리면 "다시 해!"라고 합니다.
문제점: 학생이 정답을 맞췄더라도, 그 과정이 엉뚱할 수 있습니다. 예를 들어, "삼각형의 각도를 구하는 문제"에서 그림을 전혀 보지 않고 운 좋게 숫자만 맞춰 정답을 냈을 수도 있죠. AI 도 마찬가지입니다. 그림의 중요한 부분 (예: 삼각형의 꼭짓점) 을 무시하고 텍스트만 보고 답을 내는 경우가 많았습니다.

2. PEPO 의 핵심 아이디어: "눈과 머리의 균형"

PEPO 는 AI 가 그림을 볼 때 두 가지 중요한 상태를 동시에 관리해 줍니다.

🧐 ① 지각 (Perception): "눈을 크게 뜨고 그림을 봐!"

비유: 그림을 보고 문제를 풀 때, **핵심적인 부분 **(예: 그림 속의 빨간색 화살표)을 집중해서 보는 상태입니다.
PEPO 의 역할: AI 가 그림의 특정 부분과 연결된 단어를 말할 때, 그 단어를 더 중요하게 여기게 합니다. 마치 "이 부분은 그림에서 봤으니 확실히 기억해!"라고 알려주는 것입니다.

🤔 ② 탐험 (Exploration): "다른 생각도 해봐!"

비유: 문제를 풀다가 막히면, "어? 이 방법은 아닌 것 같은데? 다른 방법은 없을까?"라고 고민하며 다양한 가능성을 시도하는 상태입니다.
PEPO 의 역할: AI 가 확신이 없는 부분 (고민하는 부분) 을 발견하면, 그 부분을 더 깊이 있게 탐색하도록 장려합니다. "여기서 멈추지 말고 다른 길도 찾아봐!"라고 독려하는 것입니다.

3. PEPO 가 어떻게 작동할까요? (마법 같은 문어발)

PEPO 는 AI 가 한 문장 (토큰) 을 말할 때마다 두 가지 신호를 섞어서 **가중치 **(중요도)를 매겨줍니다.

**그림과 얼마나 닮았는지 **(지각) AI 가 말한 단어가 그림의 어떤 부분과 잘 연결되는지 확인합니다. (예: "삼각형"이라는 단어를 말할 때 그림의 삼각형과 잘 맞으면 점수 UP!)
**얼마나 고민 중인지 **(탐험) AI 가 그 단어를 선택할 때 얼마나 확신이 없었는지 (불확실성) 확인합니다. (예: "아마도 ~일 거야"라고 고민할 때 점수 UP!)

이 두 가지를 **부드러운 문 **(Smooth Gate)을 통해 섞어서, AI 가 그림을 잘 보면서 동시에 다양한 생각을 하도록 유도합니다.

🌟 쉬운 비유:
기존 AI 는 "정답만 맞으면 돼!"라고 외치는 엄격한 선생님이라면,
PEPO 는 "그림을 잘 보고 (지각), 고민도 깊게 해 (탐험), 그 과정을 칭찬해 주는" 현명한 코치입니다.

4. 왜 이것이 중요할까요? (실제 효과)

이 방법을 적용한 AI 는 다음과 같은 놀라운 변화를 보였습니다.

기하학 문제: 그림 속 각도 관계를 정확히 파악해서 수학 문제를 더 잘 풀었습니다. (그림을 무시하고 숫자만 외우던 습관이 고쳐짐)
퍼즐 해결: 복잡한 그림 퍼즐에서 핵심 단서를 찾아내는 능력이 향상되었습니다.
작은 데이터로도 학습: 아주 적은 예시 (Few-shot) 만 보여줘도 새로운 물체를 잘 분류했습니다.

5. 결론: AI 가 "생각"을 배우는 법

이 논문은 AI 가 단순히 정답을 맞추는 기계가 아니라, **그림을 보고 **(지각)하는 존재로 성장할 수 있음을 보여줍니다.

마치 유명 화가가 그림을 그릴 때, 붓놀림 (지각) 과 창의적인 아이디어 (탐험) 를 동시에 활용하듯, PEPO 는 AI 가 그림과 언어를 자연스럽게 융합하여 더 똑똑하고 안정적인 추론을 하도록 돕는 혁신적인 훈련 방법입니다.

한 줄 요약:

PEPO 는 AI 에게 "**그림을 잘 보고 **(지각)"라고 가르쳐서, 더 똑똑하고 신뢰할 수 있는 추론 능력을 키워주는 새로운 훈련법입니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 다중 모달 체인 오브 씽킹 (Multimodal Chain-of-Thought, CoT) 추론을 위한 새로운 강화 학습 프레임워크인 PEPO(Perception-Exploration Policy Optimization) 를 제안합니다. 저자들은 기존 방법론의 한계를 지적하고, 토큰 수준 (token-level) 에서 지각 (perception) 과 탐색 (exploration) 의 상호 보완적 역할을 활용하여 대형 비전 - 언어 모델 (LVLM) 의 추론 능력을 획기적으로 향상시켰습니다.

다음은 논문의 핵심 내용을 기술적으로 요약한 것입니다.

1. 문제 정의 (Problem)

기존의 검증 가능한 보상 (Verifiable Rewards) 을 활용한 강화 학습 (RLVR) 방법론, 특히 GRPO(Group Relative Policy Optimization) 등은 시퀀스 수준 (sequence-level) 에서만 보상을 최적화합니다.

과도한 일반화: CoT(Chain-of-Thought) 과정의 모든 토큰을 동일하게 취급하여, 시각적 근거 (visual grounding) 가 필요한 단계와 추론적 탐색이 필요한 단계를 구분하지 못합니다.
지각과 추론의 불일치: 텍스트 기반의 엔트로피 (uncertainty) 만을 활용하는 기존 방법들은 시각적 의미와의 연관성이 약하며, 시각적 신호를 반영하기 위한 보조 브랜치 (auxiliary branches) 를 도입하면 계산 비용이 급증하거나 효율적인 가속 프레임워크와 호환되지 않는 문제가 있습니다.
결론: LVLM 의 성공적인 추론은 시각적 근거 (Perception) 와 추론적 탐색 (Exploration) 의 조화로운 결합에 달려 있음에도 불구하고, 이를 세밀하게 제어하는 토큰 수준의 최적화 메커니즘이 부재했습니다.

2. 방법론 (Methodology: PEPO)

PEPO 는 기존 RLVR 프레임워크 (GRPO, DAPO 등) 에 추가적인 감독 신호나 보조 구조 없이 통합 가능한 토큰 수준 정책 최적화 프레임워크입니다.

핵심 아이디어

지각 (Perception): 정답을 유도하는 토큰은 시각적 정보와 밀접하게 연결되어 있습니다. 이를 은닉 상태 (hidden state) 유사도로 측정합니다.
탐색 (Exploration): 모델이 여러 추론 경로를 탐색해야 하는 불확실한 단계는 토큰 엔트로피가 높습니다.
상호 보완성: PEPO 는 이 두 가지 신호를 결합하여 각 토큰에 가중치를 부여하고, 이를 통해 정책 경사 (policy gradient) 업데이트를 세밀하게 조정합니다.

알고리즘 세부 사항

지각 모델링 (Perception Modeling):
- 각 응답 토큰의 은닉 상태와 모든 비전 토큰 (vision tokens) 의 은닉 상태 간의 코사인 유사도 (Cosine Similarity) 를 계산하여 시각적 근거 점수 (Visual Similarity, $VS_t$ ) 를 도출합니다.
- 이는 추가적인 감독 없이 모델 내부 표현에서 시각적 정렬 정도를 추정합니다.
탐색 모델링 (Exploration Modeling):
- 모델의 출력 로짓 (logits) 에서 계산된 엔트로피 ( $H_t$ ) 를 사용하여 추론 과정의 불확실성을 정량화합니다.
지각 - 탐색 융합 (Fusion via Smooth Gating):
- $VS_t$ 와 $H_t$ 를 정규화한 후, 부드러운 게이트 메커니즘 (Smooth Gating Mechanism) 을 통해 결합합니다.
- 게이트 함수: $w_t = T \cdot \text{Softmax}((1 + \alpha \tanh(\hat{g}_t)) \cdot VS_t)$
- 이 방식은 시각적 근거가 높은 토큰을 우선시하면서도, 불확실한 단계 (높은 엔트로피) 에서의 탐색을 유도합니다. 특히 시각적 근거가 없는 고엔트로피 토큰의 무분별한 증폭을 방지합니다.
토큰 수준 이점 (Token-level Advantage):
- 기존 시퀀스 수준의 이점 ( $A^{(i)}$ ) 을 토큰 가중치 ( $w_t$ ) 와 결합하여 토큰별 이점 ( $A^{(i)}_t$ ) 으로 변환합니다.
- $A^{(i)}_t = [(1 - \lambda) + \lambda w^{(i)}_t] A^{(i)}$
- $\lambda$ 는 훈련 단계에 따라 0 에서 1 로 선형 증가하여 점진적인 최적화를 유도합니다.

3. 주요 기여 (Key Contributions)

최초의 분석: LVLM 에서 시각적 근거가 있는 토큰과 고엔트로피 토큰이 추론 과정에서 어떻게 상호 보완적인 역할을 하는지 최초로 규명했습니다. (지각은 추론을 고정하고, 엔트로피는 탐색을 주도함)
PEPO 프레임워크 제안: 은닉 상태 유사도에서 지각 사전 (perception prior) 을 추출하고, 엔트로피와 부드러운 게이트 메커니즘을 결합하여 이점 (advantage) 추정을 정교화하는 새로운 토큰 수준 최적화 방법을 제시했습니다.
광범위한 검증: GRPO 와 DAPO 를 기반으로 한 PEPOG 와 PEPOD 를 구현하여, 기하학적 추론, 시각적 퍼즐, 시각적 Grounding, 퓨샷 (few-shot) 분류 등 다양한 멀티모달 벤치마크에서 일관된 성능 향상을 입증했습니다.

4. 실험 결과 (Results)

PEPO 는 Qwen2.5-VL-3B 와 InternVL3-2B 모델을 대상으로 다양한 벤치마크에서 실험되었습니다.

기하학 및 수학 추론 (Geometry & Math):
- Qwen2.5-VL-3B 기준, GRPO 대비 평균 +3.67 점, DAPO 대비 +0.45 점 향상.
- InternVL3-2B 기준, GRPO 대비 +3.51 점, DAPO 대비 +5.15 점 향상.
- 특히 MathVerse 와 LogicVista 와 같이 시각과 기호 추론이 결합된 작업에서 큰 개선을 보였습니다.
시각적 Grounding (Visual Grounding):
- RefCOCO 와 LISA-Grounding 에서 IoU@50 기준 약 0.86 점 향상.
- 기존 엔트로피 기반 방법론이 겪던 붕괴 (collapse) 현상을 방지하고 안정적인 학습을 보였습니다.
퓨샷 분류 (Few-shot Classification):
- FGVC Aircraft 와 Flower102 에서 1~4 샷 설정 시 GRPO 대비 평균 +5.32 점 (Aircraft) 과 +1.46 점 (Flower) 의 정확도 향상.
확장성 (Scalability):
- ViRL39k 와 같은 대규모 데이터셋에서 훈련 시에도 일관된 성능 향상을 보이며, 데이터 규모가 커질수록 지각 - 탐색 결합의 효과가 증대됨을 확인했습니다.
효율성:
- 추가 계산 오버헤드 ( $\rho$ ) 가 1% 미만으로 매우 낮으며, 평균 응답 길이가 줄어들어 실제 처리량 (throughput) 은 기존 방법과 유사하거나 더 높았습니다.

5. 의의 및 결론 (Significance)

원칙적 접근: PEPO 는 단순히 보상을 최적화하는 것을 넘어, 시각적 지각과 추론적 탐색의 메커니즘을 토큰 수준에서 명시적으로 모델링함으로써 LVLM 의 추론 능력을 근본적으로 향상시켰습니다.
실용성: 별도의 보조 네트워크나 복잡한 감독 신호 없이 기존 RLVR 파이프라인 (GRPO, DAPO) 에 즉시 적용 가능하여, 실제 멀티모달 AI 시스템 개발에 높은 실용성을 가집니다.
미래 방향: 이 연구는 멀티모달 CoT 추론이 단순한 텍스트 생성이 아니라, 시각적 증거에 기반한 지각과 불확실성 하에서의 탐색이 조화를 이루어야 함을 증명했습니다. 이는 향후 더 복잡한 비전 - 언어 작업 (비디오 이해, 도구 활용 추론 등) 을 위한 중요한 기초를 제공합니다.

요약하자면, PEPO 는 **"시각적 근거 (Perception) 와 불확실성 기반 탐색 (Exploration) 의 토큰 수준 결합"**을 통해 대형 비전 - 언어 모델의 추론 정확도와 안정성을 동시에 높인 획기적인 강화 학습 방법론입니다.

Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought