DA-Occ: Direction-Aware 2D Convolution for Efficient and Geometry-Preserving 3D Occupancy Prediction in Autonomous Driving

Die Arbeit stellt DA-Occ vor, einen effizienten 2D-Framework-Ansatz für die 3D-Belegungsvorhersage im autonomen Fahren, der durch eine höhenorientierte Projektion und richtungsbewusste Faltungen die geometrische Integrität erhält und dabei Genauigkeit mit Echtzeit-Leistung auf ressourcenbeschränkten Geräten vereint.

Yuchen Zhou, Yan Luo, Xiaogang Wang + 3 more2026-03-02💻 cs

Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation

Die Studie stellt AMBER-AFNO als neuen Benchmark für die leichte 3D-Medizinbildsegmentierung vor, der durch den Ersatz von Multi-Head-Self-Attention durch Adaptive Fourier Neural Operators (AFNO) eine quasi-lineare Komplexität und lineare Speicherskalierung bei gleichzeitig state-of-the-art Ergebnissen auf öffentlichen Datensätzen erreicht.

Andrea Dosi, Semanto Mondal, Rajib Chandra Ghosh + 2 more2026-03-02⚡ eess

Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving

Das Paper stellt Max-V1 vor, ein schlankes und leistungsstarkes Vision-Language-Modell, das die autonome Fahrzeugsteuerung als sequenzielles Sprachproblem formuliert und durch eine einstufige End-to-End-Generierung von Wegpunkten aus Kameradaten sowie eine statistisch fundierte Überwachung auf dem nuScenes-Datensatz neue State-of-the-Art-Ergebnisse erzielt.

Sheng Yang, Tong Zhan, Guancheng Chen + 2 more2026-03-02🤖 cs.AI

Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Die Autoren stellen ein neuartiges Framework für die halbüberwachte Videoanomalieerkennung vor, das Multimodal Large Language Models nutzt, um hochlevelige Textbeschreibungen von Objektinteraktionen zu generieren, wodurch sowohl die Erkennung komplexer Anomalien als auch die Erklärbarkeit der Ergebnisse verbessert werden.

Furkan Mumcu, Michael J. Jones, Anoop Cherian + 1 more2026-03-02💻 cs

Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation

Das Paper stellt "Speculative Verdict" (SV) vor, ein trainingsfreies Framework, das durch die Kombination mehrerer leichter Draft-Experten mit einem starken Verdict-Modell und einem Konsens-Auswahlmechanismus die visuelle Schlussfolgerung in informationsintensiven Bildern effizient verbessert und dabei sowohl die Genauigkeit als auch die Kosteneffizienz steigert.

Yuhan Liu, Lianhui Qin, Shengjie Wang2026-03-02💬 cs.CL