TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation

TempoFit is een trainingsvrije, plug-and-play methode die bestaande Vision-Language-Action-modellen verbetert voor langdurige robotmanipulatie door het hergebruiken van bestaande temporale geheugensporen (KV-memorie) om context te behouden zonder de inferentie-latentie of het model zelf aan te passen.

Jun Sun, Boyu Yang, Jiahao Zhang, Ning Ma, Chencheng Wu, Siqing Zhang, Yiou Huang, Qiufeng Wang, Shan Liang, Yaran Chen2026-03-10💻 cs

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

Deze paper introduceert AtomicVLA, een unificerend kader voor robotplanning en -executie dat via een Skill-Guided Mixture-of-Experts (SG-MoE) schaalbare atomaire vaardigheden leert en dynamisch combineert, waardoor robuustere prestaties worden bereikt bij langdurige taken en voortdurend leren in vergelijking met bestaande VLA-modellen.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

Multi-Agent Off-World Exploration for Sparse Evidence Discovery via Gaussian Belief Mapping and Dual-Domain Coverage

Dit artikel presenteert een raamwerk voor multi-agent off-world exploratie dat gebruikmaakt van Gaussische-bewijsmapping en dubbel-domein dekking om efficiënt en veilig zeldzame bewijsstukken te vinden in gevaarlijke omgevingen met beperkte communicatie, waarbij het beter presteert dan bestaande methoden door AOI-bias te verminderen en risico's actief te beheren.

Zhuoran Qiao, Tianxin Hu, Thien-Minh Nguyen, Shenghai Yuan2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Dit paper introduceert Holi-Spatial, het eerste volledig geautomatiseerde, grootschalige multimodale datasetkader dat ruwe video-inputs omzet in holistische 3D-ruimtelijke intelligentie met behulp van een geoptimaliseerde pipeline voor 3D-Gaussian Splatting-reconstructies en ruimtelijke vraag-antwoordparen, waardoor de schaalbaarheid en prestaties van ruimtelijk redenerende modellen aanzienlijk worden verbeterd.

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs

FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

Het artikel introduceert FusionRegister, een efficiënte en robuuste methode die visuele priors gebruikt om misregistratie direct in het fusieproces van infrarood- en zichtbare beelden op te lossen, waardoor uitgebreide voorafgaande registratie overbodig wordt en de kwaliteit van bestaande fusietechnieken wordt behouden.

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu2026-03-10💻 cs

A Primer on Evolutionary Frameworks for Near-Field Multi-Source Localization

Dit paper introduceert twee nieuwe modelgedreven evolutionaire frameworks, NEMO-DE en NEEF-DE, die directe en datalabel-vrije near-field multi-source lokalisatie mogelijk maken op continue sferische-golfmodellen voor willekeurige array-geometrieën, waarmee de beperkingen van bestaande grid-gebaseerde en diepe-leerbenaderingen worden overwonnen.

Seyed Jalaleddin Mousavirad, Parisa Ramezani, Mattias O'Nils, Emil Björnson2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

Dit paper introduceert het Masked Motion Diffusion Model (MMDM), een generatief raamwerk dat onvolledige of ruisbeïnvloede bewegingsdata reconstrueert door contextadaptieve bewegingspriors te leren via een Kinematic Attention Aggregation-mechanisme, waardoor robuuste 3D-bewegingherstel mogelijk wordt bij occlusies of onnauwkeurige draagbare sensoren.

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs