Point Cloud as a Foreign Language for Multi-modal Large Language Model
Le papier présente SAGE, le premier modèle de langage multimodal (MLLM) 3D de bout en bout qui traite directement les nuages de points bruts comme une « langue étrangère » via un tokeniseur léger et une optimisation par préférence, surpassant ainsi les méthodes existantes en efficacité computationnelle et en robustesse.