Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
이 논문은 기존 MLLM 과 DeepSeek-R1 을 활용해 인간 주석 없이 고품질 다중 모달 CoT 데이터를 구축하고, 점진적 사고 억제 훈련 (PTST) 과 GRPO 를 적용하여 다중 모달 추론 능력을 강화한 'Vision-R1'모델을 제안하며, 이를 통해 MathVista 벤치마크에서 OpenAI O1 과 유사한 성능을 달성했음을 보여줍니다.