Point Cloud as a Foreign Language for Multi-modal Large Language Model
Dit paper introduceert SAGE, het eerste end-to-end multi-modale groot taalmodel dat ruwe puntwolken direct verwerkt door ze als discrete tokens te behandelen, waardoor het afhankelijkheid van vooraf getrainde 3D-encoders elimineert en superieure prestaties levert in termen van rekenefficiëntie, generalisatie en robuustheid.