3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

Het artikel introduceert 3DMedAgent, een unificerend agent-systeem dat bestaande 2D-multimodale grote taalmodellen in staat stelt om complexe 3D-CT-scans stapsgewijs te analyseren door middel van toolgebruik en gestructureerd geheugen, zonder dat specifieke 3D-finetuning vereist is.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Deze paper introduceert een nieuw onderzoeksgebied genaamd Open-Vocabulary Domain Generalization in Semantic Segmentation (OVDG-SS) voor autonome driving, inclusief een benchmark en een nieuwe methode (S2-Corr) die de robuustheid van segmentatiemodellen verbetert in onbekende omgevingen en voor onbekende objectcategorieën door tekst-beeld correlaties te verfijnen.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

InfScene-SR is een nieuwe diffusion-gebaseerde methode die willekeurige beeldgroottes super-resolutie mogelijk maakt door middel van een iteratief gezamenlijk ontdeningsproces met Variance-Corrected Fusion en Spatially-Decoupled Variance Correction, waardoor naadloze overgangen worden gegarandeerd en de rekencomplexiteit drastisch wordt verlaagd.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Dit paper introduceert een trainingsvrij, plug-and-play raamwerk genaamd 'See It, Say It, Sorted' dat visuele hallucinaties in multimodale redenering van LVLMs aanpakt door elke redeneerstap dynamisch te valideren met visueel bewijs, wat leidt tot aanzienlijke verbeteringen in nauwkeurigheid en een reductie van hallucinaties zonder extra training.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

WISER is een trainingsvrij framework voor Zero-Shot Composed Image Retrieval dat door middel van een adaptieve "retrieve-verify-refine"-pijplijn de complementaire sterkten van tekst- en beeldgebaseerde zoekopdrachten combineert om de prestaties aanzienlijk te verbeteren zonder extra training.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Het paper introduceert PackUV, een nieuwe 4D-volumetrische videorepresentatie die Gaussische attributen omzet in gestructureerde UV-atlassen voor compatibiliteit met bestaande video-codecs, ondersteund door de PackUV-GS-fittingmethode en het grote PackUV-2B-dataset om hoge kwaliteit en temporale consistentie te garanderen bij langdurige opnames.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Dit paper introduceert Infinite Self-Attention (InfSA) en zijn lineaire variant Linear-InfSA, die de kwadratische complexiteit van traditionele attention-mechanismen doorbreken door attention te modelleren als een diffusieproces op een token-graf, waardoor schaalbare en energie-efficiënte Vision Transformers mogelijk worden die zelfs bij zeer hoge resoluties (tot 9216x9216) stabiel presteren en betere ImageNet-resultaten behalen dan bestaande softmax-baselines.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs