Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design
Il paper introduce Dr. Seg, un framework plug-and-play basato su GRPO che, superando l'errata assunzione di trasferibilità diretta dei paradigmi di ragionamento linguistico alla percezione visiva, migliora le prestazioni dei modelli VLLM attraverso un meccanismo di "Look-to-Confirm" e una ricompensa basata sul ranking distribuzionale.