See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Dit paper introduceert een trainingsvrij, plug-and-play raamwerk genaamd 'See It, Say It, Sorted' dat visuele hallucinaties in multimodale redenering van LVLMs aanpakt door elke redeneerstap dynamisch te valideren met visueel bewijs, wat leidt tot aanzienlijke verbeteringen in nauwkeurigheid en een reductie van hallucinaties zonder extra training.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

WISER is een trainingsvrij framework voor Zero-Shot Composed Image Retrieval dat door middel van een adaptieve "retrieve-verify-refine"-pijplijn de complementaire sterkten van tekst- en beeldgebaseerde zoekopdrachten combineert om de prestaties aanzienlijk te verbeteren zonder extra training.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Het paper introduceert PackUV, een nieuwe 4D-volumetrische videorepresentatie die Gaussische attributen omzet in gestructureerde UV-atlassen voor compatibiliteit met bestaande video-codecs, ondersteund door de PackUV-GS-fittingmethode en het grote PackUV-2B-dataset om hoge kwaliteit en temporale consistentie te garanderen bij langdurige opnames.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Dit paper introduceert Infinite Self-Attention (InfSA) en zijn lineaire variant Linear-InfSA, die de kwadratische complexiteit van traditionele attention-mechanismen doorbreken door attention te modelleren als een diffusieproces op een token-graf, waardoor schaalbare en energie-efficiënte Vision Transformers mogelijk worden die zelfs bij zeer hoge resoluties (tot 9216x9216) stabiel presteren en betere ImageNet-resultaten behalen dan bestaande softmax-baselines.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Dit onderzoek evalueert DINOv3 als een bevroren visuele ruggengraat voor blauwe bessen-oogsttaken en concludeert dat het model, hoewel zeer effectief voor segmentatie, beperkingen vertoont bij detectie en clusterherkenning vanwege schaalvariatie en ruimtelijke aggregatie, waardoor het vooral waardevol is als semantische basis die moet worden aangevuld met specifieke ruimtelijke modellering.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Dit paper introduceert CGL, een continu leerframework voor GUI-agenten dat Supervised Fine-Tuning en Reinforcement Learning dynamisch combineert via een entropie-gestuurde aanpassing en een gradiëntchirurgie-strategie om aanpassing aan nieuwe taken te bevorderen zonder oude kennis te vergeten, wat wordt gevalideerd op het nieuwe AndroidControl-CL-benchmark.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG