cs.CV papers | Gist.Science

BiFM: Bidirectional Flow Matching for Few-Step Image Editing and Generation

Dit paper introduceert BiFM, een unificerend kader dat generatie en inversie in één model combineert door bidirectionele stroming te leren, waardoor hoogwaardige beeldbewerking en -generatie in slechts enkele stappen mogelijk wordt zonder afhankelijkheid van vooraf getrainde generators.

Yasong Dai, Zeeshan Hayder, David Ahmedt-Aristizabal, Hongdong Li2026-03-27💻 cs

Select, Hypothesize and Verify: Towards Verified Neuron Concept Interpretation

Deze paper introduceert het Select-Hypothesize-Verify-framework, dat de interpretatie van neurale netwerken verbetert door het selecteren van representatieve activaties, het vormen van concepthypothese en het verifiëren van deze concepten om misleidende of redundante neuronfuncties te elimineren en zo nauwkeurigere conceptbeschrijvingen te genereren.

ZeBin Ji, Yang Hu, Xiuli Bi, Bo Liu, Bin Xiao2026-03-27💻 cs

Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math

Dit artikel introduceert ScratchMath, een nieuw benchmark voor het analyseren van fouten in handgeschreven wiskundige werkbladen van studenten, en evalueert de beperkingen van multimodale grote taalmodellen bij het diagnosticeren van deze fouten in vergelijking met menselijke experts.

Dingjie Song, Tianlong Xu, Yi-Fan Zhang, Hang Li, Zhiling Yan, Xing Fan, Haoyang Li, Lichao Sun, Qingsong Wen2026-03-27🤖 cs.AI

Self-Corrected Image Generation with Explainable Latent Rewards

Dit paper introduceert xLARD, een zelfcorrigerend kader dat multimodale grote taalmodellen gebruikt om gegenereerde afbeeldingen te verfijnen via verklaarbare latente beloningen, waardoor de semantische uitlijning en visuele kwaliteit van complexe prompts worden verbeterd.

Yinyi Luo, Hrishikesh Gokhale, Marios Savvides, Jindong Wang, Shengfeng He2026-03-27🤖 cs.AI

PASDiff: Physics-Aware Semantic Guidance for Joint Real-world Low-Light Face Enhancement and Restoration

In dit artikel wordt PASDiff voorgesteld, een trainingsvrije diffusion-methode die fysiek bewuste semantische richtlijnen en een nieuw realistisch benchmark-dataset (WildDark-Face) combineert om gezichtsbeelden in realistische omstandigheden met weinig licht effectief te verbeteren en te herstellen.

Yilin Ni, Wenjie Li, Zhengxue Wang, Juncheng Li, Guangwei Gao, Jian Yang2026-03-27💻 cs

MoE-GRPO: Optimizing Mixture-of-Experts via Reinforcement Learning in Vision-Language Models

Dit paper introduceert MoE-GRPO, een versterkingsleringsframework dat de expert-routing in Vision-Language Models optimaliseert door selectie te formuleren als een sequentiële besluitvormingsopdracht, wat leidt tot een diversere expert-selectie, minder overfitting en betere prestaties dan traditionele top-K routing.

Dohwan Ko, Jinyoung Park, Seoung Choi, Sanghyeok Lee, Seohyun Lee, Hyunwoo J. Kim2026-03-27💻 cs

Few-Shot Left Atrial Wall Segmentation in 3D LGE MRI via Meta-Learning

Deze studie introduceert een meta-learning framework dat de segmentatie van de dunne linkerboezemwand in 3D LGE MRI-beelden significant verbetert bij een beperkt aantal annotaties, waardoor nauwkeurigere klinische evaluaties mogelijk worden met minimale extra labeling.

Yusri Al-Sanaani, Rebecca Thornhill, Pablo Nery, Elena Pena, Robert deKemp, Calum Redpath, David Birnie, Sreeraman Rajan2026-03-27💻 cs

Towards Video Anomaly Detection from Event Streams: A Baseline and Benchmark Datasets

Deze paper introduceert EWAD, een nieuw raamwerk voor video-anomaliedetectie op basis van gebeurtenisstromen, en stelt gelijktijdig gesynchroniseerde benchmarkdatasets voor om de voortgang in dit veld te stimuleren.

Peng Wu, Yuting Yan, Guansong Pang, Yujia Sun, Qingsen Yan, Peng Wang, Yanning Zhang2026-03-27💻 cs

C2W-Tune: Cavity-to -Wall Transfer Learning for Thin Atrial Wall Segmentation in 3D Late Gadolinium-enhanced Magnetic Resonance

Het artikel introduceert C2W-Tune, een tweestaps transferleerframework dat een nauwkeurig model van het linkeratriumholte gebruikt als anatomische prior om de segmentatie van de dunne wanden van het linkeratrium in 3D LGE-MRI beelden aanzienlijk te verbeteren.

Yusri Al-Sanaani, Rebecca Thornhill, Sreeraman Rajan2026-03-27💻 cs

Relaxed Rigidity with Ray-based Grouping for Dynamic Gaussian Splatting

Deze paper introduceert een nieuwe methode voor dynamische 3D-scène-reconstructie met 3D Gaussian Splatting die, door gebruik te maken van een straalgebaseerde groeperingsstrategie, de lokale geometrische structuur behoudt zonder afhankelijk te zijn van externe priors, wat leidt tot superieure temporele consistentie en reconstructiekwaliteit op monocular datasets.

Junoh Leea, Junmyeong Lee, Yeon-Ji Song, Inhwan Bae, Jisu Shin, Hae-Gon Jeon, Jin-Hwa Kim2026-03-27💻 cs

← Vorige Volgende →