On the Generalization Capacities of MLLMs for Spatial Intelligence
Dit paper stelt dat MLLMs die alleen RGB-gegevens verwerken fundamenteel tekortschieten in ruimtelijk inzicht door camera-parameters te negeren, en introduceert daarom een camera-bewust raamwerk dat door het integreren van camera-intrinsieke parameters en data-augmentatie zorgt voor robuustere en generaliseerbare ruimtelijke redeneerfähigheden.