Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design
El artículo presenta Dr. Seg, un marco de entrenamiento basado en GRPO diseñado específicamente para modelos de lenguaje visual grandes que aborda las limitaciones de los paradigmas de razonamiento en tareas de percepción mediante mecanismos de confirmación y recompensas estables, mejorando así el rendimiento en escenarios visuales complejos sin requerir modificaciones arquitectónicas.