Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Het paper introduceert Video-EM, een trainingsvrij, gebeurtenisgericht raamwerk dat lange video's omzet in een compacte, tijdsgebonden episodische geheugenreeks door middel van een zelfreflecterende LLM-agent, waardoor bestaande Video-LLMs effectiever langdurige videovragen kunnen beantwoorden zonder extra training.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Dit paper introduceert UniUGG, het eerste geïntegreerde raamwerk dat een LLM en een latente diffusiemodel combineert om zowel 3D-generatie als ruimtelijk visueel vraag-antwoord (VQA) mogelijk te maken door middel van een geometrisch-semantische leerstrategie.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

PointSlice introduceert een nieuwe slice-gebaseerde representatie en een Slice Interaction Network om 3D-objectdetectie uit puntwolken te versnellen en de parameter-efficiëntie te verbeteren, terwijl de nauwkeurigheid op grote datasets zoals Waymo, nuScenes en Argoverse 2 behouden blijft.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

MICA: Multi-Agent Industrial Coordination Assistant

Dit paper introduceert MICA, een privacy-bewust, spraakgebaseerd multi-agent systeem dat adaptieve en veilige real-time ondersteuning biedt voor industriële workflows en dat door middel van Adaptive Step Fusion en nieuwe benchmarks de betrouwbaarheid en responsiviteit in dynamische fabrieksomgevingen significant verbetert.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Dit paper introduceert het ORIC-framework om de prestaties van grote visueel-taalmodellen te evalueren en te verbeteren bij het herkennen van objecten in incongruente contexten, waarbij wordt aangetoond dat dergelijke situaties de herkenning bemoeilijken en dat visuele versterkingsfine-tuning de betrouwbaarheid kan vergroten.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Quantized Visual Geometry Grounded Transformer

Dit paper introduceert QuantVGGT, het eerste kwantisatiekader voor Visual Geometry Grounded Transformers (VGGTs) dat middels Dubbel-Gegladde Fijne-Korrelige Kwantisatie en Ruis-gefilterde Divers Steekproeven de hoge reken- en geheugenkosten van deze modellen aanzienlijk verlaagt zonder in te leveren op reconstructieprecisie.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs