HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning
O artigo apresenta o HoloLLM, um modelo de linguagem multimodal que integra sensores incomuns como LiDAR, infravermelho, radar mmWave e WiFi para superar as limitações da visão em ambientes reais, utilizando um projetor universal de injeção de modalidades e uma pipeline de curadoria de dados colaborativa para alcançar uma percepção e raciocínio humanos significativamente mais precisos e robustos.