DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

DAV-GSWT is een data-efficiënt framework dat diffusiemodellen en actieve view-sampling combineert om hoogwaardige Gaussian Splatting Wang Tiles te genereren uit minimale input, waardoor de afhankelijkheid van dichtbezaaide voorbeelden voor het creëren van realistische virtuele omgevingen wordt verminderd.

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs

Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

Deze paper introduceert RobSelf, een zelftoezichtend model dat cross-modale super-resolutie op real-world, niet-uitgelijnde data verbetert door online een misalignering-bewuste feature-vertaler en een content-bewuste referentiefilter gezamenlijk te optimaliseren, wat leidt tot state-of-the-art prestaties en een tot 15,3 keer hogere snelheid dan bestaande methoden.

Xiaoyu Dong, Jiahuan Li, Ziteng Cui, Naoto Yokoya2026-03-09💻 cs

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

Het UrbanAlign-framework kalibreert post-hoc de voorkeuren van menselijke waarnemers voor stedelijke scènes door een bevroren vision-language model te gebruiken als conceptextractor en de output te aligneren met menselijke ratings via een drie-staps proces, waardoor de prestaties aanzienlijk verbeteren zonder dat het model opnieuw getraind hoeft te worden.

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

Deze studie toont aan dat het combineren van de geometrische structuurherkenning van DINO en de interactie-priors van Flux in een training-vrije, zero-shot methode leidt tot een effectieve affordance-beslissing, wat bevestigt dat deze twee perceptieve capaciteiten de fundamentele bouwstenen zijn voor het begrijpen van interactie in visuele foundation-modellen.

Qing Zhang, Xuesong Li, Jing Zhang2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

Dit paper introduceert DPCache, een trainingsvrij versnellingsframework voor diffusiemodellen dat het afleidingsproces als een globaal padplanningsprobleem formuleert om via dynamische programmering een optimale reeks tijdstappen te selecteren en zo de rekentijd aanzienlijk te verminderen zonder kwaliteitsverlies.

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Dit paper introduceert Synthetic Visual Genome 2 (SVG2), een grootschalig panoptisch videoscène-graafdataset gegenereerd via een geautomatiseerde pipeline, en presenteert TRaSER, een model dat deze data gebruikt om de prestaties op object-, attribuut- en relatiedetectie aanzienlijk te verbeteren en video-VQA-taken te ondersteunen.

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

Deze paper introduceert PanScale, een groot dataset en benchmark voor cross-schaal pansharpening, en stelt ScaleFormer voor, een nieuw model dat generalisatie over verschillende resoluties mogelijk maakt door beeldtokenisatie en rotatiepositie-encoding, waarmee het de staat-der-kunst prestaties overtreft.

Ke Cao, Xuanhua He, Xueheng Li, Lingting Zhu, Yingying Wang, Ao Ma, Zhanjie Zhang, Man Zhou, Chengjun Xie, Jie Zhang2026-03-09💻 cs

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Dit paper introduceert een gereparameteriseerde tensorring-functionele decompositie die impliciete neurale representaties en een frequentiedomein-gebaseerde herparameterisatie combineert om de beperkingen van traditionele methoden voor discrete roosters te overwinnen en superieure prestaties te leveren bij het herstellen van multidimensionale data zoals afbeeldingen en puntwolken.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

Dit paper introduceert Think-as-You-See (TaYS), een unificerend raamwerk voor Large Vision-Language Models dat echte gelijktijdige redenering mogelijk maakt door video-informatie en denkprocessen parallel te verwerken, wat leidt tot betere prestaties en lagere latentie in vergelijking met bestaande batch- en interleaved-benaderingen.

Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

CoEditor++ is een trainingsvrij framework dat cognitieve redenering gebruikt om instructiegebaseerde beeldbewerking te verbeteren door het proces op te splitsen in 'wat' en 'hoe', waardoor het state-of-the-art presteert in zowel algemene als verantwoordelijke bewerkingstaken met een hoge visuele consistentie.

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs