Point Cloud as a Foreign Language for Multi-modal Large Language Model
Die Arbeit stellt SAGE vor, das erste End-to-End-Modell für mehrmodiale große Sprachmodelle, das rohe Punktwolken direkt ohne vortrainierte 3D-Encoder verarbeitet, indem es diese durch einen leichten Tokenizer als „Fremdsprache" in den Wortschatz des LLM integriert und durch eine semantisch ausgerichtete Präferenzoptimierung überlegene Leistung bei 3D-Fragestellungen und Recheneffizienz erzielt.