Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design
Dit paper introduceert Dr. Seg, een plug-and-play framework dat de GRPO-training voor visuele grote taalmodellen verbetert door de onjuiste aanname dat taalredeneringsparadigma's direct op visuele perceptie van toepassing zijn, te weerleggen en in te zetten op een bredere outputruimte en fijnkorrelige beloningen.