More than the Sum: Panorama-Language Models for Adverse Omni-Scenes
Diese Arbeit stellt das Panorama-Sprachmodell (PLM) und den zugehörigen Datensatz PanoVQA vor, die durch eine integrierte 360°-Verarbeitung und einen neuen Sparse-Attention-Mechanismus ein ganzheitliches Verständnis von Adversen Omni-Szenen ermöglichen, das über die bloße Kombination einzelner Nahaufnahmen hinausgeht.