RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

Dit paper introduceert RetoVLA, een efficiënt Vision-Language-Action-model dat bestaande register-tokens hergebruikt om de ruimtelijke redeneercapaciteit te verbeteren zonder de parametergrootte te vergroten, wat resulteert in een aanzienlijke stijging van het succespercentage bij robotmanipulatie.

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Dit paper introduceert QuantVGGT, het eerste kwantisatiekader voor Visual Geometry Grounded Transformers (VGGTs) dat middels Dubbel-Gegladde Fijne-Korrelige Kwantisatie en Ruis-gefilterde Divers Steekproeven de hoge reken- en geheugenkosten van deze modellen aanzienlijk verlaagt zonder in te leveren op reconstructieprecisie.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Autonomous UAV-Quadruped Docking in Complex Terrains via Active Posture Alignment and Constraint-Aware Control

Deze paper presenteert een autonoom raamwerk voor het koppelen van drones met vierpotige robots in complexe, GPS-loze omgevingen, waarbij een door deep reinforcement learning aangedreven houdingsstabilisatie van de robot en een drietrapsbesturingsstrategie met beperkingsbewuste regeling worden gebruikt om veilig te landen op ongelijk terrein zoals trappen en steile hellingen.

Haozhe Xu, Cheng Cheng, Hongrui Sang, Zhipeng Wang, Qiyong He, Xiuxian Li, Bin He2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Het paper introduceert QuantSparse, een geïntegreerd framework dat modelquantisatie en attentiesparsificatie combineert via innovatieve technieken zoals Multi-Scale Salient Attention Distillation en Second-Order Sparse Attention Reparameterization om de rekenefficiëntie van video-diffusietransformators aanzienlijk te verbeteren zonder in te leveren op de kwaliteit.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Dit artikel introduceert PHASE-Net, een lichtgewicht en theoretisch onderbouwde deep learning-architectuur die, gebaseerd op de Navier-Stokes-vergelijkingen, robuuste en efficiënte niet-contact fysiologische monitoring mogelijk maakt door middel van een Axial Swapper, een Adaptieve Ruimtelijke Filter en een Gated TCN.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Deze paper introduceert LMOD+, een uitgebreide multimodale dataset en benchmark met 32.633 gevallen voor ophthalmologie die is ontwikkeld om multimodale grote taalmodellen te evalueren op taken zoals ziekteopsporing, -stadiëring en demografische voorspelling, met als doel de ontwikkeling van AI-toepassingen ter bestrijding van wereldwijde oogziekten te versnellen.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Dit artikel introduceert een Dynamische Parabool Control Barrier Function (DPCBF) voor niet-holonomische robots die, door de veiligheidsset dynamisch aan te passen aan afstand en relatieve snelheid, de beperkingen en onhaalbaarheid van bestaande botsingskegel-methoden in dichte, dynamische omgevingen effectief oplost.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs