Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

이 논문은 멀티모달 LLM 의 지각과 추론 토큰 간의 상호 의존성을 포착하여 RLVR 학습 중 핵심 토큰을 동적으로 재가중하는 'ToR' 전략을 제안함으로써, 기존 방법론보다 뛰어난 시각적 grounding 과 추론 능력을 갖춘 최첨단 성능을 달성했다고 요약할 수 있습니다.

Jinda Lu, Junkang Wu, Jinghan Li, Kexin Huang, Shuo Yang, Guoyin Wang, Jiancan Wu, Xiang Wang, Xiangnan He

게시일 2026-03-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 핵심 비유: "사진을 보고 문제를 푸는 학생"

생각해 보세요. AI 가 그림을 보고 "이게 무슨 일인가요?"라는 질문을 받았다고 가정해 봅시다.

  1. 지각 (Perception) 역할: AI 는 그림 속의 빨간색 유니폼, 야구 방망이, 관중석 같은 시각적 요소를 먼저 파악해야 합니다. (이걸 '시각적 토큰'이라고 해요)
  2. 추론 (Reasoning) 역할: 그 다음, "아, 유니폼에 'All-Star'라고 적혀 있네? 그럼 이건 올스타전이야!"라고 논리적으로 연결해서 결론을 내려야 합니다. (이걸 '추론 토큰'이라고 해요)

지금까지의 AI 학습 방식은 이 두 가지 역할을 서로 따로따로 혹은 무작위로 가르쳤습니다. 마치 학생에게 "그림만 잘 보라고!" 혹은 "논리만 잘 짜라고!"라고 따로따로 지시하는 것과 비슷하죠.

❌ 기존 방식의 문제점: "편식하는 학생"

논문의 연구자들은 실험을 통해 놀라운 사실을 발견했습니다.

  • 추론만 가르친 경우: 논리력은 좋아졌지만, 그림을 제대로 못 봅니다. ("야구 유니폼을 보고 축구라고 말해요.")
  • 시각만 가르친 경우: 그림은 잘 보지만, 결론을 내지 못합니다. ("유니폼이 빨간색이네, 야구방망이가 있네... 근데 무슨 경기지?")

결론: 그림을 보고 논리적으로 결론을 내는 능력은 두 가지가 서로 얽혀서 (Coupled) 작동합니다. 하나만 잘한다고 해서 전체가 잘되는 게 아니라는 거죠.

✨ 새로운 해결책: ToR (Token Reweighting)

이 문제를 해결하기 위해 제안한 방법이 바로 **ToR(토큰 재가중치)**입니다.

🍽️ 비유: "요리사의 맛 조절 (Seasoning)"

기존의 AI 학습은 모든 재료 (토큰) 에 똑같은 양의 소금 (학습 신호) 을 뿌렸습니다. 하지만 중요한 재료에는 더 많은 소금을, 덜 중요한 재료에는 덜 뿌려야 맛이 좋죠.

ToR 은 이렇게 작동합니다:

  1. 중요한 재료 찾기: AI 가 답변을 만들 때, "어? 이 단어는 그림과 관련이 깊네!" (시각적 토큰) 혹은 "어? 이 단어가 논리적 전환점인데?" (추론 토큰) 라고 스스로 판단합니다.
  2. 가중치 조절: 중요한 재료 (중요한 토큰) 에는 학습 신호 (소금) 를 더 많이 뿌리고, 덜 중요한 재료에는 적게 뿌립니다.
  3. 균형 잡기: 그림을 보는 능력과 논리를 짜는 능력 모두에 적절한 양의 소금을 뿌려서, AI 가 그림도 잘 보고 논리도 잘 짜는 완벽한 요리 (답변) 를 만들게 합니다.

🚀 왜 이것이 중요한가요?

이 방법을 사용하면 AI 는 다음과 같은 변화를 겪습니다:

  • 할루시네이션 (망상) 감소: 그림에 없는 것을 만들어 말하지 않게 됩니다. (예: 그림에 없는 야구 선수를 언급하지 않음)
  • 논리력 향상: 그림을 바탕으로 더 정확한 결론을 내립니다.
  • 범용성: 기존에 쓰던 학습 방법 (GRPO, DAPO 등) 위에 바로 얹어 쓸 수 있어 (Plug-and-play) 적용이 매우 쉽습니다.

📝 한 줄 요약

"그림을 보고 논리적으로 생각하는 AI 를 키울 때, 그림을 보는 능력과 논리를 짜는 능력을 따로 가르치지 말고, 두 가지가 서로 연결된 '중요한 순간'에 집중해서 균형 있게 가르쳐야 더 똑똑해진다!"

이 연구는 AI 가 단순히 말을 잘하는 것을 넘어, 눈 (시각) 과 머리 (추론) 를 동시에 잘 쓰는 진정한 지능으로 발전하는 데 중요한 디딤돌이 될 것입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →