Fast-BEV++: Fast by Algorithm, Deployable by Design

Fast-BEV++ is een nieuw visueel Bird's-Eye-View-perceptieframework dat door middel van een hardware-geoptimaliseerde architectuur de traditionele afweging tussen detectienauwkeurigheid en verwerkingssnelheid oplost, waardoor het een nieuwe state-of-the-art prestatie op de nuScenes-benchmark bereikt met real-time inferentie van meer dan 134 FPS.

Yuanpeng Chen, Hui Song, Sheng Yang, Wei Tao, Shanhui Mo, Shuang Zhang, Xiao Hua, Tiankun Zhao2026-03-09💻 cs

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

In dit werk wordt Spatial4D-Bench gepresenteerd, een uitgebreid benchmark met ongeveer 40.000 vraag-antwoordparen voor 18 taken die de beperkingen van multimodale grote taalmodellen in menselijke 4D-ruimtelijke intelligentie blootlegt en de ontwikkeling van geavanceerdere modellen stimuleert.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

Dit paper introduceert SRA 2, een lichtgewicht framework dat de trainingssnelheid en kwaliteit van diffusion transformers verbetert door interne latent features uit te lijnen met pre-getrainde VAE-kenmerken, zonder de noodzaak van zware externe encoders of dubbele modelopzet.

Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang2026-03-09💻 cs

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Het paper introduceert SpatialReward, een beloningsmodel dat de perceptiekloof in online versterkingsleer voor beeldbewerking overbrugt door expliciete ruimtelijke redenering te gebruiken voor nauwkeurigere evaluatie en verbeterde prestaties.

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

Dit paper introduceert MiDAS, een open-source, platform-onafhankelijk systeem voor tijdgesynchroniseerde, niet-invasieve multimodale dataverzameling bij robot-assisterende minimaal invasieve chirurgie, dat wordt ondersteund door een nieuw dataset met hand- en voetbewegingen en video-opnames van chirurgen die taken uitvoeren op de Raven-II en da Vinci Xi.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

DAV-GSWT is een data-efficiënt framework dat diffusiemodellen en actieve view-sampling combineert om hoogwaardige Gaussian Splatting Wang Tiles te genereren uit minimale input, waardoor de afhankelijkheid van dichtbezaaide voorbeelden voor het creëren van realistische virtuele omgevingen wordt verminderd.

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs