Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design
이 논문은 비전 기반 대형 언어 모델 (VLLM) 의 GRPO 학습에서 추론 중심 접근법의 한계를 지적하고, 더 넓은 출력 공간과 미세한 보상 안정성을 고려한 'Dr. Seg'라는 새로운 프레임워크를 제안하여 복잡한 시각 시나리오에서의 성능을 향상시켰음을 보여줍니다.