cs.CV papers | Gist.Science

Fuel Gauge: Estimating Chain-of-Thought Length Ahead of Time in Large Multimodal Models

Dit paper introduceert Fuel Gauge, een methode die vooraf de lengte van het Chain-of-Thought-proces in grote multimodale modellen voorspelt door een verborgen 'brandstof'-parameter te extraheren, waardoor de efficiëntie van computerruimte en de nauwkeurigheid van het redeneren aanzienlijk worden verbeterd.

Yuedong Yang, Xiwen Wei, Mustafa Munir, Radu Marculescu2026-03-12💻 cs

Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation

Deze paper introduceert Concept-Gated Visual Distillation (CGVD), een trainingsvrij raamwerk dat de prestaties van Vision-Language-Action-modellen in rommelige omgevingen aanzienlijk verbetert door instructies te analyseren en visuele afleidingen te onderdrukken via Fourier-based inpainting, waardoor de succesratio van 43,0% naar 77,5% stijgt.

Sangmim Song, Sarath Kodagoda, Marc Carmichael, Karthick Thiyagarajan2026-03-12⚡ eess

EmoStory: Emotion-Aware Story Generation

Deze paper introduceert EmoStory, een tweestapsframework dat agenten voor verhaalplanning en gebiedsgerichte generatie combineert om visuele verhalen te creëren die niet alleen onderwerpconsistent zijn, maar ook expliciete emotionele richtingen effectief vertalen naar concrete beeldelementen.

Jingyuan Yang, Rucong Chen, Hui Huang2026-03-12💻 cs

StyleGallery: Training-free and Semantic-aware Personalized Style Transfer from Arbitrary Image References

StyleGallery is een trainingsvrije, semantische bewuste framework dat persoonlijke stijltransfer mogelijk maakt vanuit willekeurige referentieafbeeldingen door middel van adaptieve regio-segmentatie, precisie-afstemming en een energie-gestuurde optimalisatie, waardoor het de bestaande methoden overtreft in het behoud van contentstructuur en regionale stijl.

Boyu He (College of Computer Science and Technology, National University of Defense Technology), Yunfan Ye (School of Design, Hunan University), Chang Liu (College of Computer Science and Technology, National University of Defense Technology), Weishang Wu (College of Computer Science and Technology, National University of Defense Technology), Fang Liu (School of Design, Hunan University), Zhiping Cai (College of Computer Science and Technology, National University of Defense Technology)2026-03-12💻 cs

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Dit artikel introduceert een trainingsvrij, unificerend framework dat hallucinaties in multimodale taalmodellen effectief aanpakt door visuele tokens op twee manieren te manipuleren: via Synergistic Visual Calibration om visuele representaties te versterken en via Causal Representation Calibration om interne modelbias te corrigeren, wat leidt tot een significante verbetering van de nauwkeurigheid met slechts een minimale toename in inferentielatentie.

Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi2026-03-12💻 cs

Geometric Autoencoder for Diffusion Models

Deze paper introduceert de Geometric Autoencoder (GAE), een principieel framework dat Vision Foundation Model-priors en een nieuwe normalisatiestrategie combineert om een superieure balans te bereiken tussen compressie, semantische diepte en reconstructiestabiliteit, wat resulteert in state-of-the-art prestaties voor latent diffusion-modellen op ImageNet.

Hangyu Liu, Jianyong Wang, Yutao Sun2026-03-12💻 cs

GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning

Het paper introduceert GeoSense, een kader dat multimodale modellen in staat stelt om zelfstandig te bepalen wanneer geometrische informatie noodzakelijk is voor ruimtelijk redeneren, waardoor de prestaties worden verbeterd zonder de rekenkosten onnodig te verhogen.

Ruiheng Liu, Haihong Hao, Mingfei Han, Xin Gu, Kecheng Zhang, Changlin Li, Xiaojun Chang2026-03-12💻 cs

Variance-Aware Adaptive Weighting for Diffusion Model Training

Dit paper introduceert een variantiebewuste adaptieve wegingsstrategie die de onbalans in de trainingsdynamiek van diffusiemodellen over verschillende ruisniveaus oplost, wat resulteert in stabielere optimalisatie en verbeterde generatieve prestaties op CIFAR-10 en CIFAR-100.

Nanlong Sun, Lei Shi2026-03-12🤖 cs.LG

Multi-Person Pose Estimation Evaluation Using Optimal Transportation and Improved Pose Matching

Dit artikel introduceert OCpose, een nieuwe evaluatiemethode voor multi-persoon pose-schatting die op optimale transport gebaseerd is om een eerlijke afweging te maken tussen waar-positieve en vals-positieve poses, ongeacht hun betrouwbaarheidsscores.

Takato Moriki, Hiromu Taketsugu, Norimichi Ukita2026-03-12💻 cs

Motion Forcing: A Decoupled Framework for Robust Video Generation in Motion Dynamics

Dit paper introduceert Motion Forcing, een gefragmenteerd raamwerk dat de generatie van robuuste video's met complexe bewegingen verbetert door fysieke redenering en visuele synthese te ontkoppelen via een hiërarchisch "Punt-Vorm-Appearance"-paradigma en een strategie voor het herstellen van gemaskerde punten.

Tianshuo Xu, Zhifei Chen, Leyi Wu, Hao Lu, Ying-cong Chen2026-03-12💻 cs

Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising

Het paper introduceert Frames2Residual (F2R), een zelftoezichtend videodenruisingsframework dat spatiotemporale ontkoppeling toepast door het trainingsproces op te splitsen in een blinde temporale consistentiestap en een niet-blinde ruimtelijke textuurherstelstap, waardoor het de beperkingen van bestaande methoden overwint en superieure prestaties behaalt op zowel sRGB- als raw-videobenchmarks.

Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao2026-03-12💻 cs

TractoRC: A Unified Probabilistic Learning Framework for Joint Tractography Registration and Clustering

In dit artikel wordt TractoRC gepresenteerd, een unificerend probabilistisch leerframework dat tractografie-registratie en streamline-clustering gezamenlijk optimaliseert binnen één schema door een gedeelde, transformatie-equivariante latente inbeddingsruimte te leren, wat resulteert in een significante prestatieverbetering ten opzichte van bestaande methoden die deze taken afzonderlijk behandelen.

Yijie Li, Xi Zhu, Junyi Wang, Ye Wu, Lauren J. O'Donnell, Fan Zhang2026-03-12💻 cs

World2Act: Latent Action Post-Training via Skill-Compositional World Models

World2Act is een nieuw post-training framework dat Vision-Language-Action-beleid direct afstemt op latente dynamiek in plaats van pixels, en door middel van een door LLM's aangestuurde vaardigheidsdecompositie wereldmodellen in staat stelt om robuust te generaliseren over uiteenlopende taakhorizonten.

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory

Dit paper introduceert AsyncMDE, een asynchroon monocular depth estimation-systeem dat de rekenkosten van foundation modellen verlaagt door een lichtgewicht model te gebruiken dat asynchroon werkt met een opgeslagen ruimtelijk geheugen, waardoor real-time prestaties op edge-apparaten mogelijk worden met minimale nauwkeurigheidsverlies.

Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu2026-03-12💻 cs

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Dit paper introduceert een effectieve, prompt-vrije methode voor het selectief "vergeten" van specifieke, niet-tekstueel te specificeren outputs (zoals individuele gezichten) in diffusiemodellen door gebruik te maken van een surrogaatbenadering met afbeeldingsbewerking, timestepspecifieke weging en gradiëntchirurgie, terwijl de integriteit van de resterende generaties behouden blijft.

Kyungryeol Lee, Kyeonghyun Lee, Seongmin Hong, Byung Hyun Lee, Se Young Chun2026-03-12🤖 cs.LG

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

SignSparK introduceert een nieuw, schaalbaar raamwerk voor meertalige gebarentaalproductie dat gebruikmaakt van een efficiënte sleutelkaderleerparadigma en Conditional Flow Matching om natuurlijke, linguïstisch accurate 3D-animaties te genereren die de bestaande staat van de kunst overtreffen.

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

Dit artikel introduceert LCAMV, een robuuste methode voor nauwkeurige 3D-reconstructie van gekleurde objecten met gestructureerd licht die laterale chromatische aberratie corrigeert en multi-kanaals fasegegevens fuseert zonder extra hardware, waardoor de dieptefout tot 43,6% wordt verminderd.

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Deze paper introduceert WanderBench, het eerste wereldwijde benchmark voor actieve geolocatie, en het GeoAoT-framework dat redenering koppelt aan fysieke acties om de locatiebepalingsvaardigheden van multimodale modellen te verbeteren.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min2026-03-12💻 cs

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Het artikel introduceert MoXaRt, een real-time XR-systeem dat audio-visuele cues gebruikt om complexe geluidsmixen te scheiden, wat leidt tot een significante verbetering van spraakintelligibiliteit en een vermindering van de cognitieve belasting voor gebruikers.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle2026-03-12💻 cs

UniPINN: A Unified PINN Framework for Multi-task Learning of Diverse Navier-Stokes Equations

Dit paper introduceert UniPINN, een unified framework voor Physics-Informed Neural Networks dat door middel van een gedeelde-specialistische architectuur, cross-flow attention en dynamische gewichtsallocatie effectief multi-task learning voor diverse Navier-Stokes vergelijkingen mogelijk maakt, waardoor negatieve transfer wordt tegengegaan en de voorspellingsnauwkeurigheid wordt verbeterd.

Dengdi Sun, Jie Chen, Xiao Wang, Jin Tang2026-03-12🤖 cs.AI

← Vorige Volgende →