UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Die Arbeit stellt UniUGG vor, das erste einheitliche Framework für das Verständnis und die Generierung von 3D-Daten, welches durch einen räumlichen Decoder auf Basis eines latenten Diffusionsmodells und eine geometrisch-semantische Lernstrategie hochwertige 3D-Szenen erzeugt und räumliche VQA-Aufgaben löst.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

Die Arbeit stellt PointSlice vor, eine neuartige, auf horizontalen Schnitten basierende Methode zur 3D-Objekterkennung aus Punktwolken, die durch eine effiziente 2D-Datenrepräsentation und ein Slice-Interaktions-Netzwerk (SIN) eine überlegene Balance zwischen Detektionsgenauigkeit und Inferenzgeschwindigkeit im Vergleich zu herkömmlichen Voxel- und Säulen-basierten Ansätzen erreicht.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Die Arbeit stellt Traffic-MLLM vor, ein retrieval-freies Framework für multimodales Verkehrsreasoning, das durch curiosity-gesteuertes, überwachtes Lernen auf einer multi-quelligenen Datenbasis eine generalisierbare Fallraum-Repräsentation erlernt und damit die Robustheit von autonomen Fahrsystemen in langschwanzigen Szenarien verbessert.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

Der Artikel stellt ActivePose vor, ein aktives System zur 6D-Pose-Schätzung und -Verfolgung, das Vision-Language-Modelle mit „robotischer Imagination" und Diffusionsrichtlinien kombiniert, um durch dynamische Kamerabewegungen und Next-Best-View-Strategien Mehrdeutigkeiten in Echtzeit aufzulösen und die Sichtbarkeit von Objekten zu gewährleisten.

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Die Arbeit stellt SAGA vor, eine Methode zur selektiven adaptiven Gating, die die Effizienz und Ausdruckskraft linearer Aufmerksamkeit für Vision-Transformer verbessert, indem sie durch lernbare Gatter die uniforme Kompression von Key-Value-Informationen vermeidet und so sowohl die Rechenleistung als auch die Genauigkeit bei der Verarbeitung hochauflösender Bilder signifikant steigert.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Die Arbeit stellt den Cumulative Consensus Score (CCS) vor, eine modellunabhängige und annotierungsfreie Metrik, die durch Messung der räumlichen Konsistenz von Bounding-Box-Vorhersagen über Testzeit-Augmentierungen hinweg die Zuverlässigkeit von Objektdetektoren im Einsatz überwacht und dabei eine hohe Übereinstimmung mit etablierten Qualitätsmaßen aufweist.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

Die Autoren stellen ein asynchrones Reinforcement-Learning-Framework vor, das durch die Entkopplung von Wahrnehmung und Steuerung sowie die Verwendung eines temporalen Kodierungsmoduls hochfrequente, agile autonome Navigation von Luftfahrzeugen in komplexen Umgebungen trotz verzögerter Sensorik ermöglicht und erfolgreich in der realen Welt demonstriert wurde.

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

In dieser Studie wird der OIPP (Object-Adaptive Impact Point Predictor) vorgestellt, ein System für einen Vierbeiner-Roboter, das mithilfe eines neu erstellten Datensatzes mit 8.000 Flugbahnen und eines objektspezifischen Encoders den Landepunkt verschiedener fliegender Objekte präzise vorhersagt, um das Auffangen unter komplexen aerodynamischen Bedingungen zu ermöglichen.

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs