SGG-R3^{\rm 3}: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Dit paper introduceert SGG-R³, een gestructureerd redeneringskader dat chain-of-thought-gestuurde supervisie en versterkende leer met een groepssequenti-beleid optimalisatie combineert om onbevooroordeelde en complete scene graph generation te realiseren door de uitdagingen van relationele sparsiteit en lange-staartverdelingen aan te pakken.

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Dit paper introduceert EcoG-Bench, een diagnostisch benchmark voor egocentrische co-spraakgrounding dat aantoont dat er een groot prestatiekloof bestaat tussen menselijke en modelprestaties, voornamelijk veroorzaakt door beperkingen in multimodale interfaces die de waarneming van temporale uitlijning tussen spraak en gebaren belemmeren.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

Dit artikel introduceert een apparaat-onafhankelijk raamwerk voor het volgen van chirurgische instrumenten in augmented reality, dat door het fuseren van meerdere sensormodi binnen een dynamische scènegrafiek de robuustheid van de navigatie verbetert ondanks frequente obstructies in de operatiekamer.

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

Dit paper introduceert AutoReg3D, een autoregressieve 3D-objectdetector die LiDAR-detectie omzet in een sequentiële generatietaak zonder ankers of NMS, waardoor training wordt vereenvoudigd en de integratie van geavanceerde taalmodeltechnieken voor 3D-perceptie mogelijk wordt.

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Deze paper introduceert MambaDance, een nieuwe aanpak voor het genereren van dansbewegingen die een op Mamba gebaseerd diffusiemodel en een Gaussische beat-representatie combineert om langere, ritmisch coherente en muziekgesynchroniseerde dansen te creëren die de beperkingen van bestaande Transformer-methoden overwinnen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Deze paper introduceert een tweestapskaskader dat natuurlijke taal omzet in skeletsequentieën en vervolgens naar realistische video's, waarbij het tekort aan openbare datasets voor complexe menselijke bewegingen oplost met een synthetisch dataset en verbeterde prestaties boekt op zowel bewegingsdiversiteit als tijdsconsistentie.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

Dit paper introduceert QualiTeacher, een nieuw raamwerk dat de kwaliteit van pseudo-labels gebruikt als conditioneel toezichtsignaal om realistische beeldherstelmodellen te trainen die kunstmatige artefacten vermijden en resultaten kunnen genereren die beter zijn dan de oorspronkelijke pseudo-labels.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Dit paper presenteert een robuust multimodaal raamwerk met veilige cross-attention en modality dropout dat de uitdagingen van de 10e ABAW-uitdaging voor expressierecognitie, zoals gedeeltelijke verduistering en ontbrekende modaliteiten, effectief aanpakt en een nauwkeurigheid van 60,79% bereikt op de Aff-Wild2-validatieset.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Deze paper introduceert een plug-and-play architectuur die Large Vision-Language Models (LVLMs) en een relationele verliesfunctie gebruikt om de nauwkeurigheid van UAV-geolocalisatie door satellietbeelden te verbeteren via expliciete visueel-semantische correlaties.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs