cs.CV papers | Gist.Science

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Dit artikel introduceert een transformer-gebaseerd raamwerk voor het zoeken naar huidkankergevallen via samengestelde visueel-taalqueries, dat door middel van gezamenlijke globale en lokale uitlijning klinisch relevante case-gegevens efficiënter en nauwkeuriger identificeert dan bestaande methoden.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med introduceert een efficiënt kader voor het vooraf trainen van medische vision transformers met behulp van een bevroren groot taalmodel als gestructureerde leraar, wat resulteert in een lichtgewicht, alleen-vision model dat aanzienlijk betere prestaties levert dan bestaande methoden met minder data en zonder de zware taalmodelcomponent tijdens het gebruik.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

Dit paper introduceert PRLF, een progressief leerframework voor multimodaal sentimentanalyse dat onvolledige modaliteiten effectief verwerkt door middel van een adaptieve betrouwbaarheidsschatting en een progressieve interactiemodule om feature-misalignement te voorkomen en robuustheid te garanderen.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian YangWed, 11 Ma💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Deze paper introduceert QUSR, een nieuwe diffusion-model voor beeldsuperresolutie dat realistische en hoogwaardige resultaten in complexe scenario's bereikt door een onzekerheidsgeleide ruisgeneratiemodule te combineren met een kwaliteitsbewuste prior die wordt gegenereerd door een multimodaal groot taalmodel.

Junjie Yin, Jiaju Li, Hanfa XingWed, 11 Ma🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Deze studie introduceert een volledig geautomatiseerd framework dat gebruikmaakt van een transformer-gebaseerd SegFormer-model voor multi-regionale segmentatie van HR-pQCT-beelden, waarmee radiomische kenmerken uit zachte weefsels worden ontleend die de prestaties van osteoporosedetectie significant verbeteren ten opzichte van traditionele botgebaseerde methoden.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. SurowiecWed, 11 Ma💻 cs

Rotation Equivariant Mamba for Vision Tasks

Deze paper introduceert EQ-VMamba, het eerste rotationeel equivariante visuele Mamba-architectuur die door het integreren van rotatiesymmetrie niet alleen robuustheid tegen rotaties verbetert, maar ook superieure prestaties levert met ongeveer 50% minder parameters dan bestaande niet-equivariante modellen.

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben XuWed, 11 Ma💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

Dit paper introduceert een Agentic AI-systeem dat als intelligente besturingslaag fungeert voor federatief leren in 6G-netwerken, waarbij gespecialiseerde agenten dynamisch taken zoals cliëntselectie en hulpbronnenallocatie optimaliseren op basis van netwerkomstandigheden en apparaatcapaciteiten.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon HongWed, 11 Ma💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

Dit paper introduceert RTFDNet, een robuust RGB-T segmentatienetwerk dat Synergistic Feature Fusion en Cross-Modal Decouple Regularization combineert om effectief te presteren in omstandigheden met ontbrekende sensorgegevens door modulaire aanpassing en fusie te verenigen in één trainingsproces.

Kunyu Tan, Mingjian LiangWed, 11 Ma💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap is een nieuw reinforcement learning-framework dat de uitdagingen van dichte beeldbeschrijving oplost door gebruik te maken van door LLM's geschreven rubrieken voor gestructureerde, veelzijdige beloningssignalen, waardoor het superieure resultaten bereikt ten opzichte van bestaande methoden en zelfs modellen die zijn getraind op data van propriëtaire modellen.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Dit artikel introduceert een verbeterde deep-learning-methode, POLISH, voor radio-interferometrische beeldreconstructie die door middel van patch-wise training en een niet-lineaire intensiteitstransformatie robuust is voor realistische omstandigheden en de ontdekking van sterke gravitationele lenzen aanzienlijk verbetert.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. BoumanWed, 11 Ma🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

Het artikel introduceert Progressive Split-Mamba (PS-Mamba), een hiërarchisch framework dat de beperkingen van bestaande State Space Modellen voor beeldherstel overwint door topologie-bewuste partitie en kruis-schaal shortcuts te combineren voor zowel lokale structuurbehoud als efficiënte globale coherentie.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim RadwanWed, 11 Ma💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

Dit paper introduceert SAGE, het eerste end-to-end multi-modale groot taalmodel dat ruwe puntwolken direct verwerkt door ze als discrete tokens te behandelen, waardoor het afhankelijkheid van vooraf getrainde 3D-encoders elimineert en superieure prestaties levert in termen van rekenefficiëntie, generalisatie en robuustheid.

Sneha Paul, Zachary Patterson, Nizar BouguilaWed, 11 Ma💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Dit paper introduceert MM-Zero, het eerste RL-gebaseerde framework dat Vision Language Models zonder enige trainingsdata zelf kan laten evolueren door middel van een unieke drie-rollen architectuur (voorsteller, coder en solver) die samenwerken om visuele concepten te genereren en redeneervermogen te verbeteren.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Dit artikel introduceert een geometrie-bewust metrisch leerframework dat gebruikmaakt van rotatie- en schaal-invariante hoekdescriptoren van statische handkeypoints om de prestaties van cross-linguale few-shot herkenning van gebarentaal aanzienlijk te verbeteren, zelfs in scenario's met beperkte data.

Chayanin Chamachot, Kanokphan LertniponphanWed, 11 Ma💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Dit paper introduceert TubeMLLM, een fundamenteel model dat multimodale grote taalmodellen combineert met topologische priors en een nieuw benchmark (TubeMData) om de topologische consistentie en zero-shot generalisatie bij de modellering van vaatachtige anatomie aanzienlijk te verbeteren.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun GuWed, 11 Ma💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Dit artikel introduceert een nieuwe verliesfunctie voor een gedistribueerd convolutioneel neuronaal netwerk (DisCNN) dat zich specifiek richt op het extraheren van kenmerken van één positieve klasse door negatieve monsters naar de oorsprong te projecteren, wat resulteert in een lichtgewicht model met uitstekende generalisatie voor objectdetectie in complexe achtergronden.

Liang SunWed, 11 Ma💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

Dit paper introduceert UniField, een unificerend framework voor MRI-versterking dat gebruikmaakt van voorgeöefende 3D-foundationmodellen en een veldbewust spectrale correctiemechanisme om de generalisatie over verschillende veldsterktes te verbeteren, ondersteund door een nieuw, grootschalig dataset.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan YuanWed, 11 Ma💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

HelixTrack is een volledig gebeurtenisgestuurde methode die propellerachtige objecten traceert en hun toerental schat met microseconde-latenstie door homografie-gebaseerde terugprojectie en Kalman-filtering, en wordt geëvalueerd op het nieuwe TQE-dataset.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri MatasWed, 11 Ma💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

In dit paper stellen de auteurs BridgeDiff voor, een diffusion-gebaseerd framework dat de kloof tussen menselijke waarnemingen en platte kledingreconstructie overbrugt door middel van een kledingvoorwaarde-module en een platte-structuurbeperking-module om state-of-the-art virtuele pasvormresultaten te bereiken.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

RAE-NWM is een nieuw navigatiemodel dat dynamiek in een dichte visuele representatieruimte modelleert in plaats van in een gecomprimeerde latente ruimte, waardoor de structurele stabiliteit en actie-accuraatheid voor visuele navigatie worden verbeterd.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

← Vorige Volgende →