3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding
O artigo apresenta o 3D-RFT, um novo paradigma que aplica o Ajuste Fino por Reforço com Recompensas Verificáveis (RLVR) para otimizar diretamente modelos multimodais de grande escala em tarefas de compreensão de cenas 3D baseadas em vídeo, superando o desempenho de métodos anteriores e de modelos maiores ao alinhar os objetivos de treinamento com métricas de avaliação específicas.