PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning
Die Arbeit stellt PanoEnv vor, einen umfassenden Benchmark für 3D-Raumverständnis in panoramischen Umgebungen, und demonstriert, wie ein curriculumsbasiertes Reinforcement-Learning-Framework mit GRPO die räumliche Intelligenz von Vision-Language-Modellen signifikant verbessert und dabei sogar größere Modelle übertreffen kann.