cs.CV papers | Gist.Science

MSP-ReID: Hairstyle-Robust Cloth-Changing Person Re-Identification

Dit paper introduceert het MSP-framework, dat de prestaties van kledingwisselende persoonhervindingsystemen verbetert door de afhankelijkheid van veranderlijke haarkleuren te verminderen via hairstyle-georiënteerde augmentatie en structuurbehoudende verbergingstechnieken.

Xiangyang He, Lin Wan2026-03-10💻 cs

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

Dit paper introduceert een detectie-gestuurde pipeline die robuuste glottale segmentatie en klinische pathologie-evaluatie mogelijk maakt door een lokale detector te combineren met een segmentatiemodel, waardoor state-of-the-art prestaties en cross-dataset generalisatie worden bereikt voor real-time klinisch gebruik.

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Dit artikel presenteert een robuust classificatiekader voor beelden van het immaterieel cultureel erfgoed in de Mekongdelta, waarbij de CoAtNet-architectuur wordt gecombineerd met modelsoepen om de generalisatie te verbeteren door de variantie te verminderen in een data-schaarste omgeving.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Dit onderzoek evalueert DINOv3 als een bevroren visuele ruggengraat voor blauwe bessen-oogsttaken en concludeert dat het model, hoewel zeer effectief voor segmentatie, beperkingen vertoont bij detectie en clusterherkenning vanwege schaalvariatie en ruimtelijke aggregatie, waardoor het vooral waardevol is als semantische basis die moet worden aangevuld met specifieke ruimtelijke modellering.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Deze paper introduceert GramCol en een Interpretable Motion-Attentive Map (IMAP) om zonder gradiëntberekening ruimtelijk en temporeel te lokaliseren hoe Video Diffusion Transformers bewegingsconcepten vertalen naar video's.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Dit paper introduceert CGL, een continu leerframework voor GUI-agenten dat Supervised Fine-Tuning en Reinforcement Learning dynamisch combineert via een entropie-gestuurde aanpassing en een gradiëntchirurgie-strategie om aanpassing aan nieuwe taken te bevorderen zonder oude kennis te vergeten, wat wordt gevalideerd op het nieuwe AndroidControl-CL-benchmark.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

Dit paper introduceert LDP-Slicing, een lichtgewicht framework dat lokale differentiaalse privacy voor beelden mogelijk maakt door pixelwaarden te decomponeren in bit-plannen, waardoor de gebruiksgraad voor downstream-taken aanzienlijk verbetert ten opzichte van bestaande methoden zonder trainingskosten.

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Dit paper introduceert DeepScope, een diep-leringsysteem dat microscopische beelden van niet-geïncubeerde watermonsters analyseert om fecale vervuiling binnen seconden met 93% nauwkeurigheid te detecteren, waardoor de testtijd met meer dan 98% wordt verkort en de kosten dalen tot $0,44 per test.

Sanjay Srinivasan2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Dit paper introduceert OptiRoulette, een nieuwe stochastische meta-optimizer die tijdens het trainen dynamisch update-regels selecteert en hiermee de convergentie tot 5,3 keer versnelt en de testnauwkeurigheid op diverse beeldclassificatiedatasets aanzienlijk verbetert ten opzichte van de standaard AdamW-baseline.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Dit paper introduceert een uniforme representatie voor generatieve modellen zoals diffusion en flow matching, en toont aan dat een soms zwakke correlatie tussen ruis en het voorspelde doel de leerprocessen kan beïnvloeden.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

Het artikel introduceert RECAP, een bio-geïnspireerde methode voor beeldherkenning die ongeleide reservoir-dynamica combineert met een lokaal Hebbiaans prototype-leesmechanisme om robuuste classificatie te bereiken zonder gebruik van backpropagation.

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Deze paper onthult dat pruning-based unlearning in diffusion-modellen kwetsbaar is voor conceptherstel via een data- en trainingsvrije aanval, omdat de locaties van de verwijderde gewichten als bijkanaal fungeren die de gewiste concepten verraad.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

Dit artikel introduceert ObjChangeVR-Dataset en het ObjChangeVR-framework om objectstatusveranderingen in VR-omgevingen te analyseren vanuit continue egocentrische perspectieven, waarbij cross-view redenering en tijdsgebonden zoekopdrachten worden gebruikt om veranderingen te detecteren die plaatsvinden zonder directe gebruikersinteractie.

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Deze studie introduceert een nieuw randconsistentie-framework met 'Perturbation Fidelity'-scoring voor het robuust subtyperen van invasieve longadenocarcinoom op basis van hele-slice-beelden, wat aanzienlijke verbeteringen in nauwkeurigheid en generalisatie oplevert ondanks beeldvervormingen en domeinverschuivingen.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Het paper introduceert PaLMR, een framework dat de redeneerprocessen van multimodale modellen verbetert door hallucinaties te verminderen en visuele trouw te waarborgen via een combinatie van perceptie-uitgelijnde data en een hiërarchische beloningsfunctie, wat leidt tot state-of-the-art resultaten op benchmarks zoals HallusionBench.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

Dit paper introduceert FCBNet, een parameter-efficiënt convolutioneel model met een bevroren ConvNeXt-ruggengraat en een Feature Correction Block dat op multispectrale luchtfoto's een hogere nauwkeurigheid en trainings-efficiëntie bereikt dan bestaande methoden voor onkruiddetectie.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

Dit paper introduceert GameVerse, een benchmark die aantoont dat Vision-Language-modellen hun spelstrategieën kunnen verbeteren door video-gebaseerde reflectie op fouten en experttutorials te combineren in een reflecteer-en-probeer-opnieuw-paradigma.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

Deze paper introduceert ASMIL, een nieuw raamwerk voor multiple instance learning dat door het gebruik van een ankermodel, een genormaliseerde sigmoid-functie en willekeurige token-dropping de instabiele attentiedynamiek, overfitting en te geconcentreerde verdelingen in de diagnose van hele slide-afbeeldingen effectief aanpakt en aanzienlijk betere prestaties levert dan bestaande methoden.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

Dit paper introduceert EnsAug, een trainingsparadigma dat een ensemble van specialistische modellen gebruikt, waarbij elk model is getraind op een unieke geometrische augmentatie, om de prestaties en modulariteit bij de analyse van menselijke bewegingssequenties te verbeteren ten opzichte van de traditionele aanpak van één model op een gecombineerd dataset.

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

Het paper introduceert HyperTokens, een transformer-gebaseerde token-generator die voortdurend video-taalbegrip verbetert door dynamische prompts te genereren en meta-geïnspireerde regularisatie te gebruiken om vergeten te voorkomen en de prestaties op benchmarks te maximaliseren.

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG

← Vorige Volgende →