3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding
Dit paper introduceert 3D-RFT, het eerste framework dat Reinforcement Learning met verifieerbare beloningen toepast op videobased 3D-scènebegrip om het model direct te optimaliseren op evaluatiemetrics en zo state-of-the-art prestaties te behalen die zelfs grotere modellen overtreffen.