Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

🎨 핵심 비유: "사진을 보고 문제를 푸는 학생"

생각해 보세요. AI 가 그림을 보고 "이게 무슨 일인가요?"라는 질문을 받았다고 가정해 봅시다.

지각 (Perception) 역할: AI 는 그림 속의 빨간색 유니폼, 야구 방망이, 관중석 같은 시각적 요소를 먼저 파악해야 합니다. (이걸 '시각적 토큰'이라고 해요)
추론 (Reasoning) 역할: 그 다음, "아, 유니폼에 'All-Star'라고 적혀 있네? 그럼 이건 올스타전이야!"라고 논리적으로 연결해서 결론을 내려야 합니다. (이걸 '추론 토큰'이라고 해요)

지금까지의 AI 학습 방식은 이 두 가지 역할을 서로 따로따로 혹은 무작위로 가르쳤습니다. 마치 학생에게 "그림만 잘 보라고!" 혹은 "논리만 잘 짜라고!"라고 따로따로 지시하는 것과 비슷하죠.

❌ 기존 방식의 문제점: "편식하는 학생"

논문의 연구자들은 실험을 통해 놀라운 사실을 발견했습니다.

추론만 가르친 경우: 논리력은 좋아졌지만, 그림을 제대로 못 봅니다. ("야구 유니폼을 보고 축구라고 말해요.")
시각만 가르친 경우: 그림은 잘 보지만, 결론을 내지 못합니다. ("유니폼이 빨간색이네, 야구방망이가 있네... 근데 무슨 경기지?")

결론: 그림을 보고 논리적으로 결론을 내는 능력은 두 가지가 서로 얽혀서 (Coupled) 작동합니다. 하나만 잘한다고 해서 전체가 잘되는 게 아니라는 거죠.

✨ 새로운 해결책: ToR (Token Reweighting)

이 문제를 해결하기 위해 제안한 방법이 바로 **ToR(토큰 재가중치)**입니다.

🍽️ 비유: "요리사의 맛 조절 (Seasoning)"

기존의 AI 학습은 모든 재료 (토큰) 에 똑같은 양의 소금 (학습 신호) 을 뿌렸습니다. 하지만 중요한 재료에는 더 많은 소금을, 덜 중요한 재료에는 덜 뿌려야 맛이 좋죠.

ToR 은 이렇게 작동합니다:

중요한 재료 찾기: AI 가 답변을 만들 때, "어? 이 단어는 그림과 관련이 깊네!" (시각적 토큰) 혹은 "어? 이 단어가 논리적 전환점인데?" (추론 토큰) 라고 스스로 판단합니다.
가중치 조절: 중요한 재료 (중요한 토큰) 에는 학습 신호 (소금) 를 더 많이 뿌리고, 덜 중요한 재료에는 적게 뿌립니다.
균형 잡기: 그림을 보는 능력과 논리를 짜는 능력 모두에 적절한 양의 소금을 뿌려서, AI 가 그림도 잘 보고 논리도 잘 짜는 완벽한 요리 (답변) 를 만들게 합니다.

🚀 왜 이것이 중요한가요?

이 방법을 사용하면 AI 는 다음과 같은 변화를 겪습니다:

할루시네이션 (망상) 감소: 그림에 없는 것을 만들어 말하지 않게 됩니다. (예: 그림에 없는 야구 선수를 언급하지 않음)
논리력 향상: 그림을 바탕으로 더 정확한 결론을 내립니다.
범용성: 기존에 쓰던 학습 방법 (GRPO, DAPO 등) 위에 바로 얹어 쓸 수 있어 (Plug-and-play) 적용이 매우 쉽습니다.

📝 한 줄 요약

"그림을 보고 논리적으로 생각하는 AI 를 키울 때, 그림을 보는 능력과 논리를 짜는 능력을 따로 가르치지 말고, 두 가지가 서로 연결된 '중요한 순간'에 집중해서 균형 있게 가르쳐야 더 똑똑해진다!"

이 연구는 AI 가 단순히 말을 잘하는 것을 넘어, 눈 (시각) 과 머리 (추론) 를 동시에 잘 쓰는 진정한 지능으로 발전하는 데 중요한 디딤돌이 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경:
검증 가능한 보상 (Verifiable Rewards) 을 활용한 강화학습 (RLVR) 은 대형 언어 모델 (LLM) 의 추론 능력을 획기적으로 향상시켰습니다. 이를 다중 모달 대형 언어 모델 (MLLM) 로 확장하려는 시도가 증가하고 있습니다.

핵심 문제:
MLLM 의 응답은 지각 관련 토큰 (Perception-related tokens, 시각적 내용 기반) 과 추론 관련 토큰 (Reasoning-related tokens, 추론 체인 구성) 이 서로 얽혀 (interleave) 생성됩니다.

기존 연구들은 추론 (Chain-of-Thought) 과 지각 (Visual Grounding) 능력을 각각 독립적으로 최적화하거나, 특정 능력에만 초점을 맞추는 경향이 있었습니다.
가설: 저자들은 지각과 추론이 토큰 수준에서 본질적으로 상호 의존적 (interdependent) 이며, 이를 분리하여 최적화하는 것은 비효율적이라고 주장합니다.
실증적 발견: 실험 결과, 지각 토큰만 최적화하거나 추론 토큰만 최적화하는 경우, 모든 토큰을 최적화하는 경우 (Vanilla GRPO) 보다 성능이 저하되는 것을 확인했습니다. 이는 한쪽 능력의 최적화가 다른 쪽의 성능을 해치거나, 두 능력의 균형이 깨지기 때문입니다.

2. 제안 방법론: 토큰 재가중치 (Token Reweighting, ToR)

저자들은 기존 RLVR 알고리즘 (GRPO, DAPO 등) 에 플러그 앤 플레이 (plug-and-play) 방식으로 적용 가능한 ToR (Token-Reweighting) 전략을 제안합니다.

A. 핵심 토큰 식별 (Token Identification)
모델의 내부 신호를 기반으로 두 가지 유형의 중요한 토큰을 동적으로 식별합니다.

추론 관련 토큰 (Reasoning-related tokens):
- 식별 기준: 생성된 응답 중 높은 예측 엔트로피 (High Predictive Entropy) 를 가진 토큰.
- 이유: 높은 엔트로피는 모델이 추론 과정에서 결정적 분기점 (forking points) 에서 불확실성을 겪고 있음을 의미하며, 이러한 지점을 최적화하는 것이 추론 체인의 품질을 높이는 데 중요합니다.
지각 관련 토큰 (Perception-related tokens):
- 식별 기준: 이미지 입력이 있을 때와 없을 때 (빈 자리표시자) 의 토큰 로그 확률 차이 (Log-probability difference) 가 큰 토큰.
- 이유: 시각적 입력에 민감하게 반응하는 토큰을 식별하여, 모델이 시각적 내용을 올바르게 grounding 하도록 유도합니다.

B. 동적 재가중치 (Dynamic Reweighting)

기존 RLVR 목적함수 (GRPO 또는 DAPO) 에 토큰별 가중치 계수를 도입합니다.
식별된 추론 토큰과 지각 토큰에 각각 가중치 ( $\gamma_r, \gamma_p$ ) 를 부여하여 경사 하강 (Gradient Descent) 시 중요도를 높입니다.
나머지 일반 토큰은 가중치를 0 으로 두거나 낮게 설정하여, 학습 신호가 핵심적인 지각과 추론 토큰에 집중되도록 합니다.
효과: 이 방식은 지각과 추론 간의 상호 의존성을 명시적으로 모델링하여, 시각적 grounding 을 유지하면서 논리적 추론의 불확실성을 동시에 줄이는 균형을 이룹니다.

3. 주요 실험 결과 (Results)

실험 설정:

모델: Qwen2.5-VL-7B (Base), Qwen2.5-VL-3B
데이터: Geometry3K (학습), ViRL-39K (확장 실험)
벤치마크: MathVerse, MathVision, MathVista, WeMath (수학적 추론), HalluBench (시각적 환각/지각)

주요 성과:

분리 최적화의 실패 확인:
- 추론 토큰만 학습하거나 지각 토큰만 학습하는 경우, 전체 토큰 학습 (Vanilla GRPO) 대비 모든 벤치마크에서 성능이 하락했습니다. 특히 추론 토큰만 학습하면 시각적 오류가 발생하고, 지각 토큰만 학습하면 논리적 연결성이 떨어졌습니다.
ToR 의 성능 향상:
- ToR-GRPO: GRPO 베이스라인 대비 MathVerse(50.8 → 53.0), HalluBench(69.8 → 72.4) 등에서 일관된 성능 향상을 보였습니다.
- ToR-DAPO: DAPO 알고리즘에 적용 시에도 WeMath 와 MathVista 에서 SOTA(최고 성능) 를 기록했습니다.
- 일반화 능력: 모델 크기 (3B vs 7B) 와 학습 데이터 규모 (2.1K vs 39K) 를 변경하더라도 ToR 전략은 일관된 개선을 보여주었습니다.
가중치 민감도 분석:
- 지각 토큰 가중치 ( $\gamma_p$ ) 를 0.5 로 설정했을 때 가장 균형 잡힌 성능을 보였으며, 한쪽 능력을 과도하게 강조하면 성능이 저하됨을 확인했습니다.

4. 주요 기여 (Key Contributions)

토큰 수준의 상호 의존성 발견: MLLM 에서 지각과 추론이 분리된 능력이 아니라, 토큰 수준에서 긴밀하게 결합되어 있으며, 이를 분리 최적화하면 성능이 저하된다는 것을 실증적으로 증명했습니다.
간단하고 효과적인 ToR 전략 제안: 외부 사전 지식이나 복잡한 구조 변경 없이, 모델의 내부 신호 (엔트로피, 로그 확률 차이) 만을 활용하여 핵심 토큰을 식별하고 재가중치하는 경량 모듈을 제안했습니다.
SOTA 성능 달성: 기존 RLVR 알고리즘 (GRPO, DAPO) 에 ToR 을 적용하여 다양한 다중 모달 추론 벤치마크에서 새로운 최고 성능을 기록했습니다.
균형 잡힌 학습 프레임워크: 시각적 grounding 과 논리적 추론 체인 구성이라는 상충될 수 있는 두 목표를 동시에 달성할 수 있는 학습 메커니즘을 제시했습니다.

5. 의의 및 결론 (Significance)

이 논문은 다중 모달 강화학습 (RLVR) 의 핵심 과제를 토큰 수준의 최적화 전략으로 접근하여 해결했습니다. 기존 연구들이 추론이나 지각 중 하나에 치중하는 경향이 있었으나, 본 연구는 **"지각과 추론은 분리할 수 없는 결합된 능력"**임을 강조하고, 이를 동시에 최적화하는 ToR을 통해 모델의 전반적인 추론 능력을 획기적으로 향상시켰습니다.

이는 향후 MLLM 이 복잡한 시각적 문제를 해결할 때, 단순히 이미지를 '보는' 것을 넘어 시각적 정보를 논리적 추론 과정에 효과적으로 통합하는 방향으로 발전하는 데 중요한 기초를 제공합니다. 또한, 플러그 앤 플레이 방식의 제안으로 다양한 RLVR 알고리즘과 모델 아키텍처에 쉽게 적용 가능하다는 점에서 실용적인 가치가 높습니다.