On the Feasibility and Opportunity of Autoregressive 3D Object Detection

Dit paper introduceert AutoReg3D, een autoregressieve 3D-objectdetector die LiDAR-detectie omzet in een sequentiële generatietaak zonder ankers of NMS, waardoor training wordt vereenvoudigd en de integratie van geavanceerde taalmodeltechnieken voor 3D-perceptie mogelijk wordt.

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Deze paper introduceert MambaDance, een nieuwe aanpak voor het genereren van dansbewegingen die een op Mamba gebaseerd diffusiemodel en een Gaussische beat-representatie combineert om langere, ritmisch coherente en muziekgesynchroniseerde dansen te creëren die de beperkingen van bestaande Transformer-methoden overwinnen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Deze paper introduceert een tweestapskaskader dat natuurlijke taal omzet in skeletsequentieën en vervolgens naar realistische video's, waarbij het tekort aan openbare datasets voor complexe menselijke bewegingen oplost met een synthetisch dataset en verbeterde prestaties boekt op zowel bewegingsdiversiteit als tijdsconsistentie.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

Dit paper introduceert QualiTeacher, een nieuw raamwerk dat de kwaliteit van pseudo-labels gebruikt als conditioneel toezichtsignaal om realistische beeldherstelmodellen te trainen die kunstmatige artefacten vermijden en resultaten kunnen genereren die beter zijn dan de oorspronkelijke pseudo-labels.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Dit paper presenteert een robuust multimodaal raamwerk met veilige cross-attention en modality dropout dat de uitdagingen van de 10e ABAW-uitdaging voor expressierecognitie, zoals gedeeltelijke verduistering en ontbrekende modaliteiten, effectief aanpakt en een nauwkeurigheid van 60,79% bereikt op de Aff-Wild2-validatieset.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Deze paper introduceert een plug-and-play architectuur die Large Vision-Language Models (LVLMs) en een relationele verliesfunctie gebruikt om de nauwkeurigheid van UAV-geolocalisatie door satellietbeelden te verbeteren via expliciete visueel-semantische correlaties.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

Het paper introduceert TALON, een adaptief leerframework dat de beperkingen van bestaande hash-gebaseerde methoden voor on-the-fly categorieontdekking overwint door testtijd-adaptatie en semantische prototype-updates te gebruiken, waardoor het model dynamisch nieuwe kennis kan verwerven zonder last te hebben van categorie-explosie.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

Dit paper introduceert een nieuwe 'Map-Based AI'-benadering voor object-navigatie die een lokaal, op LoRA gefinetuned Llama-2-model combineert met een hybride topologisch-roosterkaart om semantische zones te infereren en systematische verkenning te optimaliseren, wat leidt tot aanzienlijk betere prestaties dan traditionele reactieve methoden in de AI2-THOR-simulatie.

Yudai Noda, Kanji Tanaka2026-03-10💻 cs