Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design
En démontrant que les paradigmes de raisonnement ne se transfèrent pas directement à la perception visuelle, ce papier propose Dr. Seg, un cadre GRPO plug-and-play intégrant un mécanisme de confirmation et une récompense hiérarchisée pour améliorer les modèles de langage visuel dans des tâches complexes de segmentation.