Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Das Paper stellt Video-EM vor, ein trainingsfreies Framework, das durch die Orchestrierung von LLMs und Werkzeugen zur ereignisbasierten Konstruktion und Verfeinerung einer kompakten episodischen Gedächtnisrepräsentation die Herausforderungen des Verständnisses langer Videos für bestehende Video-LLMs löst.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Die Arbeit stellt UniUGG vor, das erste einheitliche Framework für das Verständnis und die Generierung von 3D-Daten, welches durch einen räumlichen Decoder auf Basis eines latenten Diffusionsmodells und eine geometrisch-semantische Lernstrategie hochwertige 3D-Szenen erzeugt und räumliche VQA-Aufgaben löst.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

Das Paper stellt PhysGM vor, ein feed-forward Framework, das mithilfe des neuen PhysAssets-Datensatzes und Direct Preference Optimization aus einem einzigen Bild sofort physikalisch plausible 4D-Simulationen mit hoher Wiedergabetreue erzeugt und dabei die Nachteile herkömmlicher, optimierungsintensiver Methoden überwindet.

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

Die Arbeit stellt PointSlice vor, eine neuartige, auf horizontalen Schnitten basierende Methode zur 3D-Objekterkennung aus Punktwolken, die durch eine effiziente 2D-Datenrepräsentation und ein Slice-Interaktions-Netzwerk (SIN) eine überlegene Balance zwischen Detektionsgenauigkeit und Inferenzgeschwindigkeit im Vergleich zu herkömmlichen Voxel- und Säulen-basierten Ansätzen erreicht.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Die Arbeit stellt Traffic-MLLM vor, ein retrieval-freies Framework für multimodales Verkehrsreasoning, das durch curiosity-gesteuertes, überwachtes Lernen auf einer multi-quelligenen Datenbasis eine generalisierbare Fallraum-Repräsentation erlernt und damit die Robustheit von autonomen Fahrsystemen in langschwanzigen Szenarien verbessert.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Die Arbeit stellt SAGA vor, eine Methode zur selektiven adaptiven Gating, die die Effizienz und Ausdruckskraft linearer Aufmerksamkeit für Vision-Transformer verbessert, indem sie durch lernbare Gatter die uniforme Kompression von Key-Value-Informationen vermeidet und so sowohl die Rechenleistung als auch die Genauigkeit bei der Verarbeitung hochauflösender Bilder signifikant steigert.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Die Arbeit stellt den Cumulative Consensus Score (CCS) vor, eine modellunabhängige und annotierungsfreie Metrik, die durch Messung der räumlichen Konsistenz von Bounding-Box-Vorhersagen über Testzeit-Augmentierungen hinweg die Zuverlässigkeit von Objektdetektoren im Einsatz überwacht und dabei eine hohe Übereinstimmung mit etablierten Qualitätsmaßen aufweist.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Der Artikel stellt FINS vor, ein leichtgewichtiges Framework, das mithilfe eines vortrainierten Fundamentmodells und eines Multi-Resolution-Hash-Grids aus einem einzigen Bild hochpräzise implizite Oberflächen und SDF-Felder in nur wenigen Sekunden rekonstruiert und damit bestehende Methoden in Geschwindigkeit und Genauigkeit übertrifft.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Das Paper stellt QuantVGGT vor, ein bahnbrechendes Post-Training-Quantisierungsframework für Visual Geometry Grounded Transformers, das durch eine dual geglättete Feinquantisierung und rauschgefiltertes, vielfältiges Sampling die Herausforderungen schwerer Verteilungen und instabiler Kalibrierung bei Milliarden-modellen löst und dabei eine 3,7-fache Speicherreduktion bei über 98 % der ursprünglichen Genauigkeit ermöglicht.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

Die Arbeit stellt GS-2M vor, einen materialbewussten Optimierungsrahmen auf Basis von 3D-Gaussian-Splatting, der durch eine neuartige Rauheitsüberwachung und das gemeinsame Optimieren von geometrischen Attributen hochfidele, dreieckige Mesh-Rekonstruktionen selbst bei stark reflektierenden Oberflächen ermöglicht, ohne dabei auf komplexe neuronale Komponenten angewiesen zu sein.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs