ReMoT: Reinforcement Learning with Motion Contrast Triplets
El artículo presenta ReMoT, un paradigma de entrenamiento unificado que combina un marco automático para generar un gran conjunto de datos de tripletes de contraste de movimiento (ReMoT-16K) con la optimización de políticas relativas grupales (GRPO), logrando un rendimiento superior en la consistencia espacio-temporal de los modelos de lenguaje visuales y estableciendo un nuevo estándar en la discriminación de atributos de movimiento.