cs.CV papers | Gist.Science

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Dit paper introduceert WS-Net, een diep leerframework dat state-space-modelling en een zwak-signaal-attentie-mechanisme combineert om de nauwkeurigheid van hyperspectrale ontbinding te verbeteren door zwakke signaalresponsen effectief te isoleren van dominante eindleden en ruis.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun Zhou2026-03-11🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

Deze paper introduceert SpectralDiff, een spectrale gestructureerde diffusiemodel dat gericht is op het effectief verwijderen van regenstrepen uit afbeeldingen door gebruik te maken van spectrale verstoringen en een efficiënte full-product U-Net-architectuur.

Yucheng Xing, Xin Wang2026-03-11💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Deze studie presenteert een verbeterd YOLOv8-gebaseerd raamwerk dat brand- en rookdetectie combineert met afstandsberekening tot nabijgelegen objecten om een kwantitatieve risicoscore te genereren voor proactief brandveiligheidsbeheer op ingenieurslocaties.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan Ubaid2026-03-11💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Het paper introduceert GST-VLA, een 3D diepte-bewust Vision-Language-Action-model dat anisotrope 3D-Gaussische ruimtelijke tokens en gestructureerde redeneerprocessen gebruikt om de precisie en prestaties van robotacties aanzienlijk te verbeteren.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

Dit paper introduceert OmniEdit, een trainingsvrij framework dat lip-sync en audio-visuele bewerking mogelijk maakt door het FlowEdit-paradigma te hervormen, waardoor rekenkundige kosten en data-eisen worden vermeden.

Lixiang Lin, Siyuan Jin, Jinshan Zhang2026-03-11💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Dit paper introduceert een nieuw raamwerk voor het genereren van fysiek plausibele video's door het gebruik van een keten van gebeurtenisgerichte causale redenering en transitiebewuste cross-modale prompting om fysieke fenomenen te modelleren als een opeenvolging van causaal verbonden en dynamisch evoluerende gebeurtenissen.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei2026-03-11💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Dit onderzoek analyseert de prestatieverschillen tussen tekst en afbeeldingen in multimodale taalmodellen, identificeert de oorzaken van deze 'modale kloof' en stelt een zelfdistillatiemethode voor die de nauwkeurigheid bij het lezen van tekst in afbeeldingen aanzienlijk verbetert zonder kennisverlies.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

Het paper introduceert MedKCO, een methode voor medisch visueel-taalvoortraining die de representatiekwaliteit verbetert door een cognitief georkestreerde curriculumlearning aanpak te gebruiken die de volgorde van de trainingsdata en het contrastieve leerdoel dynamisch aanpast.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou2026-03-11💻 cs

Training-free Motion Factorization for Compositional Video Generation

Deze paper introduceert een trainingsvrij raamwerk voor compositievideo-generatie dat complexe beweging ontbindt in statische, rigide en niet-rigide categorieën via een 'planning-voor-generatie'-paradigma, waardoor diverse objecten met gecontroleerde bewegingen en uiterlijk kunnen worden gegenereerd zonder bestaande diffusion-modellen te hoeven hertrainen.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Dit artikel introduceert een transformer-gebaseerd raamwerk voor het zoeken naar huidkankergevallen via samengestelde visueel-taalqueries, dat door middel van gezamenlijke globale en lokale uitlijning klinisch relevante case-gegevens efficiënter en nauwkeuriger identificeert dan bestaande methoden.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med introduceert een efficiënt kader voor het vooraf trainen van medische vision transformers met behulp van een bevroren groot taalmodel als gestructureerde leraar, wat resulteert in een lichtgewicht, alleen-vision model dat aanzienlijk betere prestaties levert dan bestaande methoden met minder data en zonder de zware taalmodelcomponent tijdens het gebruik.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

Dit paper introduceert PRLF, een progressief leerframework voor multimodaal sentimentanalyse dat onvolledige modaliteiten effectief verwerkt door middel van een adaptieve betrouwbaarheidsschatting en een progressieve interactiemodule om feature-misalignement te voorkomen en robuustheid te garanderen.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian Yang2026-03-11💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Deze paper introduceert QUSR, een nieuwe diffusion-model voor beeldsuperresolutie dat realistische en hoogwaardige resultaten in complexe scenario's bereikt door een onzekerheidsgeleide ruisgeneratiemodule te combineren met een kwaliteitsbewuste prior die wordt gegenereerd door een multimodaal groot taalmodel.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Deze studie introduceert een volledig geautomatiseerd framework dat gebruikmaakt van een transformer-gebaseerd SegFormer-model voor multi-regionale segmentatie van HR-pQCT-beelden, waarmee radiomische kenmerken uit zachte weefsels worden ontleend die de prestaties van osteoporosedetectie significant verbeteren ten opzichte van traditionele botgebaseerde methoden.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. Surowiec2026-03-11💻 cs

Rotation Equivariant Mamba for Vision Tasks

Deze paper introduceert EQ-VMamba, het eerste rotationeel equivariante visuele Mamba-architectuur die door het integreren van rotatiesymmetrie niet alleen robuustheid tegen rotaties verbetert, maar ook superieure prestaties levert met ongeveer 50% minder parameters dan bestaande niet-equivariante modellen.

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben Xu2026-03-11💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

Dit paper introduceert een Agentic AI-systeem dat als intelligente besturingslaag fungeert voor federatief leren in 6G-netwerken, waarbij gespecialiseerde agenten dynamisch taken zoals cliëntselectie en hulpbronnenallocatie optimaliseren op basis van netwerkomstandigheden en apparaatcapaciteiten.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon Hong2026-03-11💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

Dit paper introduceert RTFDNet, een robuust RGB-T segmentatienetwerk dat Synergistic Feature Fusion en Cross-Modal Decouple Regularization combineert om effectief te presteren in omstandigheden met ontbrekende sensorgegevens door modulaire aanpassing en fusie te verenigen in één trainingsproces.

Kunyu Tan, Mingjian Liang2026-03-11💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap is een nieuw reinforcement learning-framework dat de uitdagingen van dichte beeldbeschrijving oplost door gebruik te maken van door LLM's geschreven rubrieken voor gestructureerde, veelzijdige beloningssignalen, waardoor het superieure resultaten bereikt ten opzichte van bestaande methoden en zelfs modellen die zijn getraind op data van propriëtaire modellen.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Dit artikel introduceert een verbeterde deep-learning-methode, POLISH, voor radio-interferometrische beeldreconstructie die door middel van patch-wise training en een niet-lineaire intensiteitstransformatie robuust is voor realistische omstandigheden en de ontdekking van sterke gravitationele lenzen aanzienlijk verbetert.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. Bouman2026-03-11🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

Het artikel introduceert Progressive Split-Mamba (PS-Mamba), een hiërarchisch framework dat de beperkingen van bestaande State Space Modellen voor beeldherstel overwint door topologie-bewuste partitie en kruis-schaal shortcuts te combineren voor zowel lokale structuurbehoud als efficiënte globale coherentie.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim Radwan2026-03-11💻 cs

← Vorige Volgende →