cs.CV papers | Gist.Science

Why Does It Look There? Structured Explanations for Image Classification

Het paper introduceert I2X, een raamwerk dat ongestructureerde interpretatie omzet in gestructureerde, prototype-gebaseerde verklaringen voor beeldclassificatiemodellen, waardoor niet alleen het besluitvormingsproces transparant wordt maar ook de voorspellingsnauwkeurigheid kan worden verbeterd door gerichte fine-tuning.

Jiarui Li, Zixiang Yin, Samuel J Landry, Zhengming Ding, Ramgopal R. Mettu2026-03-12🤖 cs.LG

One Adapter for All: Towards Unified Representation in Step-Imbalanced Class-Incremental Learning

Het artikel introduceert One-A, een unificerend raamwerk voor stap-ongeweven klassen-incrementeel leren dat door asymmetrische subspace-alignatie en gerichte gating een enkele adapter gebruikt om stabiel en efficiënt te leren van taken met sterk variërende grootte.

Xiaoyan Zhang, Jiangpeng He2026-03-12🤖 cs.LG

Joint Imaging-ROI Representation Learning via Cross-View Contrastive Alignment for Brain Disorder Classification

Dit paper introduceert een unificerend cross-view contrastief raamwerk dat globale beeldvormings- en lokale ROI-grafrepresentaties voor hersenstoornisklassificatie in een gedeelde latente ruimte uitlijnt, wat leidt tot verbeterde prestaties en complementaire inzichten op de ADHD-200 en ABIDE datasets.

Wei Liang, Lifang He2026-03-12🤖 cs.AI

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

ID-LoRA is een baanbrekende methode die voor het eerst gezamenlijk de visuele verschijning en het stemgeluid van een onderwerp personaliseert in één generatieve stap, waarbij tekst, een referentieafbeelding en een korte audioclip worden gebruikt om zowel de visuele als auditieve modaliteit te synchroniseren en te sturen.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja Giryes2026-03-12💻 cs

A Robust Deep Learning Framework for Bangla License Plate Recognition Using YOLO and Vision-Language OCR

Dit artikel presenteert een robuust deep learning-framework voor het herkennen van Bengaalse kentekens, dat een aangepaste YOLOv8-architectuur combineert met een Vision-Language OCR-model (ViT + BanglaBERT) om een nauwkeurige detectie en tekstextractie te realiseren onder diverse real-world omstandigheden.

Nayeb Hasin, Md. Arafath Rahman Nishat, Mainul Islam, Khandakar Shakib Al Hasan, Asif Newaz2026-03-12💻 cs

Taming Score-Based Denoisers in ADMM: A Convergent Plug-and-Play Framework

Deze paper introduceert ADMM-PnP met een AC-DC-ontruisingsmechanisme om de convergentie en prestaties van score-gebaseerde generatieve modellen in ADMM voor inverse problemen te verbeteren door een driestapsaanpak die de mismatch tussen trainingsmanifolden en iteraties oplost.

Rajesh Shrestha, Xiao Fu2026-03-12🤖 cs.LG

From Imitation to Intuition: Intrinsic Reasoning for Open-Instance Video Classification

Dit paper introduceert DeepIntuit, een raamwerk dat videoclassificatie voor open instanties transformeert van naakten naar intuïtief redeneren door een vision-language model te verfijnen met versterkingslering en een intuïtieve kalibratiestap voor nauwkeurige classificatie.

Ke Zhang, Xiangchen Zhao, Yunjie Tian, Jiayu Zheng, Vishal M. Patel, Di Fu2026-03-12💻 cs

The Orthogonal Vulnerabilities of Generative AI Watermarks: A Comparative Empirical Benchmark of Spatial and Latent Provenance

Deze studie toont aan dat watermerken in zowel de ruimtelijke als de latente domeinen fundamenteel kwetsbaar zijn voor elkaars specifieke aanvalsmethoden, wat aantoont dat enkelvoudige watermerktechnieken ontoereikend zijn voor moderne digitale provenance en de noodzaak onderstreept van multi-domein cryptografische architecturen.

Jesse Yu, Nicholas Wei2026-03-12💻 cs

Fuel Gauge: Estimating Chain-of-Thought Length Ahead of Time in Large Multimodal Models

Dit paper introduceert Fuel Gauge, een methode die vooraf de lengte van het Chain-of-Thought-proces in grote multimodale modellen voorspelt door een verborgen 'brandstof'-parameter te extraheren, waardoor de efficiëntie van computerruimte en de nauwkeurigheid van het redeneren aanzienlijk worden verbeterd.

Yuedong Yang, Xiwen Wei, Mustafa Munir, Radu Marculescu2026-03-12💻 cs

Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation

Deze paper introduceert Concept-Gated Visual Distillation (CGVD), een trainingsvrij raamwerk dat de prestaties van Vision-Language-Action-modellen in rommelige omgevingen aanzienlijk verbetert door instructies te analyseren en visuele afleidingen te onderdrukken via Fourier-based inpainting, waardoor de succesratio van 43,0% naar 77,5% stijgt.

Sangmim Song, Sarath Kodagoda, Marc Carmichael, Karthick Thiyagarajan2026-03-12⚡ eess

EmoStory: Emotion-Aware Story Generation

Deze paper introduceert EmoStory, een tweestapsframework dat agenten voor verhaalplanning en gebiedsgerichte generatie combineert om visuele verhalen te creëren die niet alleen onderwerpconsistent zijn, maar ook expliciete emotionele richtingen effectief vertalen naar concrete beeldelementen.

Jingyuan Yang, Rucong Chen, Hui Huang2026-03-12💻 cs

StyleGallery: Training-free and Semantic-aware Personalized Style Transfer from Arbitrary Image References

StyleGallery is een trainingsvrije, semantische bewuste framework dat persoonlijke stijltransfer mogelijk maakt vanuit willekeurige referentieafbeeldingen door middel van adaptieve regio-segmentatie, precisie-afstemming en een energie-gestuurde optimalisatie, waardoor het de bestaande methoden overtreft in het behoud van contentstructuur en regionale stijl.

Boyu He (College of Computer Science and Technology, National University of Defense Technology), Yunfan Ye (School of Design, Hunan University), Chang Liu (College of Computer Science and Technology, National University of Defense Technology), Weishang Wu (College of Computer Science and Technology, National University of Defense Technology), Fang Liu (School of Design, Hunan University), Zhiping Cai (College of Computer Science and Technology, National University of Defense Technology)2026-03-12💻 cs

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Dit artikel introduceert een trainingsvrij, unificerend framework dat hallucinaties in multimodale taalmodellen effectief aanpakt door visuele tokens op twee manieren te manipuleren: via Synergistic Visual Calibration om visuele representaties te versterken en via Causal Representation Calibration om interne modelbias te corrigeren, wat leidt tot een significante verbetering van de nauwkeurigheid met slechts een minimale toename in inferentielatentie.

Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi2026-03-12💻 cs

Geometric Autoencoder for Diffusion Models

Deze paper introduceert de Geometric Autoencoder (GAE), een principieel framework dat Vision Foundation Model-priors en een nieuwe normalisatiestrategie combineert om een superieure balans te bereiken tussen compressie, semantische diepte en reconstructiestabiliteit, wat resulteert in state-of-the-art prestaties voor latent diffusion-modellen op ImageNet.

Hangyu Liu, Jianyong Wang, Yutao Sun2026-03-12💻 cs

GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning

Het paper introduceert GeoSense, een kader dat multimodale modellen in staat stelt om zelfstandig te bepalen wanneer geometrische informatie noodzakelijk is voor ruimtelijk redeneren, waardoor de prestaties worden verbeterd zonder de rekenkosten onnodig te verhogen.

Ruiheng Liu, Haihong Hao, Mingfei Han, Xin Gu, Kecheng Zhang, Changlin Li, Xiaojun Chang2026-03-12💻 cs

Variance-Aware Adaptive Weighting for Diffusion Model Training

Dit paper introduceert een variantiebewuste adaptieve wegingsstrategie die de onbalans in de trainingsdynamiek van diffusiemodellen over verschillende ruisniveaus oplost, wat resulteert in stabielere optimalisatie en verbeterde generatieve prestaties op CIFAR-10 en CIFAR-100.

Nanlong Sun, Lei Shi2026-03-12🤖 cs.LG

Multi-Person Pose Estimation Evaluation Using Optimal Transportation and Improved Pose Matching

Dit artikel introduceert OCpose, een nieuwe evaluatiemethode voor multi-persoon pose-schatting die op optimale transport gebaseerd is om een eerlijke afweging te maken tussen waar-positieve en vals-positieve poses, ongeacht hun betrouwbaarheidsscores.

Takato Moriki, Hiromu Taketsugu, Norimichi Ukita2026-03-12💻 cs

Motion Forcing: A Decoupled Framework for Robust Video Generation in Motion Dynamics

Dit paper introduceert Motion Forcing, een gefragmenteerd raamwerk dat de generatie van robuuste video's met complexe bewegingen verbetert door fysieke redenering en visuele synthese te ontkoppelen via een hiërarchisch "Punt-Vorm-Appearance"-paradigma en een strategie voor het herstellen van gemaskerde punten.

Tianshuo Xu, Zhifei Chen, Leyi Wu, Hao Lu, Ying-cong Chen2026-03-12💻 cs

Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising

Het paper introduceert Frames2Residual (F2R), een zelftoezichtend videodenruisingsframework dat spatiotemporale ontkoppeling toepast door het trainingsproces op te splitsen in een blinde temporale consistentiestap en een niet-blinde ruimtelijke textuurherstelstap, waardoor het de beperkingen van bestaande methoden overwint en superieure prestaties behaalt op zowel sRGB- als raw-videobenchmarks.

Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao2026-03-12💻 cs

TractoRC: A Unified Probabilistic Learning Framework for Joint Tractography Registration and Clustering

In dit artikel wordt TractoRC gepresenteerd, een unificerend probabilistisch leerframework dat tractografie-registratie en streamline-clustering gezamenlijk optimaliseert binnen één schema door een gedeelde, transformatie-equivariante latente inbeddingsruimte te leren, wat resulteert in een significante prestatieverbetering ten opzichte van bestaande methoden die deze taken afzonderlijk behandelen.

Yijie Li, Xi Zhu, Junyi Wang, Ye Wu, Lauren J. O'Donnell, Fan Zhang2026-03-12💻 cs

← Vorige Volgende →