CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Deze paper introduceert CroSTAta, een transformer-architectuur met een nieuwe State Transition Attention-mechanisme die door het modelleren van tijdsafhankelijke overgangspatronen en het gebruik van temporale masking de robuustheid van robotmanipulatiepoliën aanzienlijk verbetert, zelfs bij uitvoeringsvariaties die niet tijdens het trainen zijn gezien.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Dit paper introduceert NANOMIND, een hardware-software co-design raamwerk dat grote multimodale modellen op batterij-aangedreven apparaten efficiënt uitvoert door modulaire componenten dynamisch toe te wijzen aan de meest geschikte versnellers, wat resulteert in een aanzienlijke verbetering van energie-efficiëntie en doorvoersnelheid zonder netwerkverbinding.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Deze paper introduceert een trainingsvrije plugin die hallucinaties in multimodale redeneringsmodellen vermindert door de aandacht tussen perceptie- en redeneerlagen dynamisch te herverdelen, wat leidt tot een verbeterde consistentie en visuele betrouwbaarheid zonder extra training of architecturale wijzigingen.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Dit artikel presenteert een framework dat een geleerde wereldmodel combineert met modelvoorspellende regeling om mensachtige robots in staat te stellen robuust fysiek contact te plannen in ongestructureerde omgevingen, wat leidt tot verbeterde sample-efficiëntie en multi-taakcapaciteit vergeleken met traditionele methoden.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Deze paper introduceert een framework met Permutation Relative Policy Optimization (PRPO) dat de numerieke redeneervermogens van taalmodellen activeert voor tabulair voorspellen door kolompermutatie-invariantie als structurele prior te gebruiken, waardoor zelfs kleinere modellen (8B) superieure prestaties behalen ten opzichte van veel grotere modellen, vooral in zero-shot scenario's.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Dit paper introduceert Dream4Drive, een nieuw raamwerk voor het genereren van synthetische data dat wereldmodellen voor rijden omzet in een krachtig hulpmiddel om de prestaties van waarnemingsmodellen voor autonoom rijden, met name in zeldzame situaties, significant te verbeteren.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Dit paper introduceert CountFormer, een exemplaarvrij framework dat de DINOv2-vision foundation model gebruikt om visuele herhaling en structuur te leren voor objecttelling, en toont aan dat representatiekwaliteit cruciaal is voor het verminderen van overtellingen bij complexe objecten, hoewel de prestaties op de FSC-147-benchmark vergelijkbaar blijven met eerdere methoden.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

Deze paper introduceert LagMemo, een navigatiesysteem dat een taalgebaseerde 3D-Gaussian Splatting-geheugenstructuur gebruikt om robots in staat te stellen open-vocabulary en multi-doel visuele navigatie uit te voeren, wat resulteert in een aanzienlijke prestatieverbetering ten opzichte van de huidige stand van de techniek.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs