3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding
El artículo presenta 3D-RFT, un marco pionero que aplica el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) a la comprensión de escenas 3D basadas en video, optimizando directamente los modelos multimodales mediante funciones de recompensa derivadas de métricas de evaluación para lograr un rendimiento superior al estado del arte en tareas de percepción y razonamiento espacial.