Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle
O artigo apresenta o Shuffle-R1, um framework eficiente de aprendizado por reforço para Modelos de Linguagem Multimodais que resolve problemas de colapso de vantagem e silenciamento de rolagens através de amostragem dinâmica de trajetórias e embaralhamento baseado em vantagem, resultando em um treinamento mais eficaz com sobrecarga mínima.