Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation

Deze paper introduceert Concept-Gated Visual Distillation (CGVD), een trainingsvrij raamwerk dat de prestaties van Vision-Language-Action-modellen in rommelige omgevingen aanzienlijk verbetert door instructies te analyseren en visuele afleidingen te onderdrukken via Fourier-based inpainting, waardoor de succesratio van 43,0% naar 77,5% stijgt.

Sangmim Song, Sarath Kodagoda, Marc Carmichael, Karthick Thiyagarajan2026-03-12⚡ eess

StyleGallery: Training-free and Semantic-aware Personalized Style Transfer from Arbitrary Image References

StyleGallery is een trainingsvrije, semantische bewuste framework dat persoonlijke stijltransfer mogelijk maakt vanuit willekeurige referentieafbeeldingen door middel van adaptieve regio-segmentatie, precisie-afstemming en een energie-gestuurde optimalisatie, waardoor het de bestaande methoden overtreft in het behoud van contentstructuur en regionale stijl.

Boyu He (College of Computer Science and Technology, National University of Defense Technology), Yunfan Ye (School of Design, Hunan University), Chang Liu (College of Computer Science and Technology, National University of Defense Technology), Weishang Wu (College of Computer Science and Technology, National University of Defense Technology), Fang Liu (School of Design, Hunan University), Zhiping Cai (College of Computer Science and Technology, National University of Defense Technology)2026-03-12💻 cs

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Dit artikel introduceert een trainingsvrij, unificerend framework dat hallucinaties in multimodale taalmodellen effectief aanpakt door visuele tokens op twee manieren te manipuleren: via Synergistic Visual Calibration om visuele representaties te versterken en via Causal Representation Calibration om interne modelbias te corrigeren, wat leidt tot een significante verbetering van de nauwkeurigheid met slechts een minimale toename in inferentielatentie.

Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi2026-03-12💻 cs

Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising

Het paper introduceert Frames2Residual (F2R), een zelftoezichtend videodenruisingsframework dat spatiotemporale ontkoppeling toepast door het trainingsproces op te splitsen in een blinde temporale consistentiestap en een niet-blinde ruimtelijke textuurherstelstap, waardoor het de beperkingen van bestaande methoden overwint en superieure prestaties behaalt op zowel sRGB- als raw-videobenchmarks.

Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao2026-03-12💻 cs

TractoRC: A Unified Probabilistic Learning Framework for Joint Tractography Registration and Clustering

In dit artikel wordt TractoRC gepresenteerd, een unificerend probabilistisch leerframework dat tractografie-registratie en streamline-clustering gezamenlijk optimaliseert binnen één schema door een gedeelde, transformatie-equivariante latente inbeddingsruimte te leren, wat resulteert in een significante prestatieverbetering ten opzichte van bestaande methoden die deze taken afzonderlijk behandelen.

Yijie Li, Xi Zhu, Junyi Wang, Ye Wu, Lauren J. O'Donnell, Fan Zhang2026-03-12💻 cs

World2Act: Latent Action Post-Training via Skill-Compositional World Models

World2Act is een nieuw post-training framework dat Vision-Language-Action-beleid direct afstemt op latente dynamiek in plaats van pixels, en door middel van een door LLM's aangestuurde vaardigheidsdecompositie wereldmodellen in staat stelt om robuust te generaliseren over uiteenlopende taakhorizonten.

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory

Dit paper introduceert AsyncMDE, een asynchroon monocular depth estimation-systeem dat de rekenkosten van foundation modellen verlaagt door een lichtgewicht model te gebruiken dat asynchroon werkt met een opgeslagen ruimtelijk geheugen, waardoor real-time prestaties op edge-apparaten mogelijk worden met minimale nauwkeurigheidsverlies.

Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu2026-03-12💻 cs

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Dit paper introduceert een effectieve, prompt-vrije methode voor het selectief "vergeten" van specifieke, niet-tekstueel te specificeren outputs (zoals individuele gezichten) in diffusiemodellen door gebruik te maken van een surrogaatbenadering met afbeeldingsbewerking, timestepspecifieke weging en gradiëntchirurgie, terwijl de integriteit van de resterende generaties behouden blijft.

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun2026-03-12🤖 cs.LG

UniPINN: A Unified PINN Framework for Multi-task Learning of Diverse Navier-Stokes Equations

Dit paper introduceert UniPINN, een unified framework voor Physics-Informed Neural Networks dat door middel van een gedeelde-specialistische architectuur, cross-flow attention en dynamische gewichtsallocatie effectief multi-task learning voor diverse Navier-Stokes vergelijkingen mogelijk maakt, waardoor negatieve transfer wordt tegengegaan en de voorspellingsnauwkeurigheid wordt verbeterd.

Dengdi Sun, Jie Chen, Xiao Wang, Jin Tang2026-03-12🤖 cs.AI