cs.CV papers | Gist.Science

Cycle-Consistent Tuning for Layered Image Decomposition

Deze paper introduceert een cyclus-consistente afstemmingsframework dat grote diffusiemodellen gebruikt om logo's en hun achtergronden effectief te ontkoppelen door wederzijdse reconstructie en progressieve zelfverbetering.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Dit paper introduceert een trainingsvrij, plug-and-play raamwerk genaamd 'See It, Say It, Sorted' dat visuele hallucinaties in multimodale redenering van LVLMs aanpakt door elke redeneerstap dynamisch te valideren met visueel bewijs, wat leidt tot aanzienlijke verbeteringen in nauwkeurigheid en een reductie van hallucinaties zonder extra training.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

Deze paper introduceert een nieuwe, verenigde aanpak voor semantische en panoptische segmentatie in afbeeldingen en video's, waarbij maskers worden omgezet in discrete tokens via run-length encoding (RLE) en vervolgens autoregressief worden gegenereerd met een aangepast taalmodel.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

WISER is een trainingsvrij framework voor Zero-Shot Composed Image Retrieval dat door middel van een adaptieve "retrieve-verify-refine"-pijplijn de complementaire sterkten van tekst- en beeldgebaseerde zoekopdrachten combineert om de prestaties aanzienlijk te verbeteren zonder extra training.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Het paper introduceert PackUV, een nieuwe 4D-volumetrische videorepresentatie die Gaussische attributen omzet in gestructureerde UV-atlassen voor compatibiliteit met bestaande video-codecs, ondersteund door de PackUV-GS-fittingmethode en het grote PackUV-2B-dataset om hoge kwaliteit en temporale consistentie te garanderen bij langdurige opnames.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Dit paper introduceert HART, een annotatievrij framework dat Large Multimodal Models via versterkingsleer in staat stelt om zonder menselijke labels effectief te redeneren over hoge-resolutie beelden door zelfkritische focus op relevante beeldregio's.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Dit paper introduceert Infinite Self-Attention (InfSA) en zijn lineaire variant Linear-InfSA, die de kwadratische complexiteit van traditionele attention-mechanismen doorbreken door attention te modelleren als een diffusieproces op een token-graf, waardoor schaalbare en energie-efficiënte Vision Transformers mogelijk worden die zelfs bij zeer hoge resoluties (tot 9216x9216) stabiel presteren en betere ImageNet-resultaten behalen dan bestaande softmax-baselines.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

Dit paper introduceert WildActor, een framework voor het genereren van video's met menselijke acteurs die hun volledige lichaamidentiteit behouden onder onbeperkte bewegingen en camerahoeken, ondersteund door de nieuwe grote dataset Actor-18M.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Dit standpuntspaper pleit ervoor dat de evaluatie van moderne visuele verwerkingssystemen minder gericht moet zijn op enkele objectieve beeldkwaliteitsmetrieken en meer op menselijke perceptie en context om innovatie te stimuleren en onderzoek te sturen.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

Het artikel introduceert DeAR, een raamwerk dat VLM-adaptatie verbetert door de rollen van individuele attention heads te ontleden en te isoleren, waardoor een betere balans wordt bereikt tussen taakspecifieke aanpassing en het behoud van de oorspronkelijke generalisatie.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

MSP-ReID: Hairstyle-Robust Cloth-Changing Person Re-Identification

Dit paper introduceert het MSP-framework, dat de prestaties van kledingwisselende persoonhervindingsystemen verbetert door de afhankelijkheid van veranderlijke haarkleuren te verminderen via hairstyle-georiënteerde augmentatie en structuurbehoudende verbergingstechnieken.

Xiangyang He, Lin Wan2026-03-10💻 cs

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

Dit paper introduceert een detectie-gestuurde pipeline die robuuste glottale segmentatie en klinische pathologie-evaluatie mogelijk maakt door een lokale detector te combineren met een segmentatiemodel, waardoor state-of-the-art prestaties en cross-dataset generalisatie worden bereikt voor real-time klinisch gebruik.

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Dit artikel presenteert een robuust classificatiekader voor beelden van het immaterieel cultureel erfgoed in de Mekongdelta, waarbij de CoAtNet-architectuur wordt gecombineerd met modelsoepen om de generalisatie te verbeteren door de variantie te verminderen in een data-schaarste omgeving.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Dit onderzoek evalueert DINOv3 als een bevroren visuele ruggengraat voor blauwe bessen-oogsttaken en concludeert dat het model, hoewel zeer effectief voor segmentatie, beperkingen vertoont bij detectie en clusterherkenning vanwege schaalvariatie en ruimtelijke aggregatie, waardoor het vooral waardevol is als semantische basis die moet worden aangevuld met specifieke ruimtelijke modellering.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Deze paper introduceert GramCol en een Interpretable Motion-Attentive Map (IMAP) om zonder gradiëntberekening ruimtelijk en temporeel te lokaliseren hoe Video Diffusion Transformers bewegingsconcepten vertalen naar video's.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Dit paper introduceert CGL, een continu leerframework voor GUI-agenten dat Supervised Fine-Tuning en Reinforcement Learning dynamisch combineert via een entropie-gestuurde aanpassing en een gradiëntchirurgie-strategie om aanpassing aan nieuwe taken te bevorderen zonder oude kennis te vergeten, wat wordt gevalideerd op het nieuwe AndroidControl-CL-benchmark.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

Dit paper introduceert LDP-Slicing, een lichtgewicht framework dat lokale differentiaalse privacy voor beelden mogelijk maakt door pixelwaarden te decomponeren in bit-plannen, waardoor de gebruiksgraad voor downstream-taken aanzienlijk verbetert ten opzichte van bestaande methoden zonder trainingskosten.

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Dit paper introduceert DeepScope, een diep-leringsysteem dat microscopische beelden van niet-geïncubeerde watermonsters analyseert om fecale vervuiling binnen seconden met 93% nauwkeurigheid te detecteren, waardoor de testtijd met meer dan 98% wordt verkort en de kosten dalen tot $0,44 per test.

Sanjay Srinivasan2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Dit paper introduceert OptiRoulette, een nieuwe stochastische meta-optimizer die tijdens het trainen dynamisch update-regels selecteert en hiermee de convergentie tot 5,3 keer versnelt en de testnauwkeurigheid op diverse beeldclassificatiedatasets aanzienlijk verbetert ten opzichte van de standaard AdamW-baseline.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Dit paper introduceert een uniforme representatie voor generatieve modellen zoals diffusion en flow matching, en toont aan dat een soms zwakke correlatie tussen ruis en het voorspelde doel de leerprocessen kan beïnvloeden.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

← Vorige Volgende →