cs.CV articoli | Gist.Science

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Il paper propone un framework basato su transformer per la ricerca di casi di cancro della pelle mediante query composte da immagine e testo, che migliora le prestazioni attraverso un allineamento congiunto di rappresentazioni globali e locali, ottenendo risultati superiori rispetto agli stati dell'arte sul dataset Derm7pt.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

Il paper presenta VIVID-Med, un innovativo framework che utilizza un grande modello linguistico (LLM) congelato come insegnante semantico strutturato per pre-addestrare efficientemente transformer visivi medici, ottenendo prestazioni superiori con dati ridotti e un modello finale leggero e pronto per il deployment clinico.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

Il paper propone PRLF, un framework di apprendimento rappresentazionale progressivo che affronta l'analisi del sentiment multimodale con modalità mancanti utilizzando un stimatore di affidabilità adattivo e un modulo di interazione progressiva per allineare dinamicamente le modalità e migliorare la robustezza.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian YangWed, 11 Ma💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Il modello QUSR propone una soluzione innovativa per la super-risoluzione delle immagini in scenari reali complessi, integrando un prior di qualità basato su modelli linguistici multimodali e una generazione di rumore guidata dall'incertezza per preservare i dettagli e ridurre gli artefatti.

Junjie Yin, Jiaju Li, Hanfa XingWed, 11 Ma🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Questo studio presenta il primo framework automatizzato basato su trasformatori (SegFormer) per la segmentazione multi-regione di immagini HR-pQCT, dimostrando che l'estrazione di caratteristiche radiomiche dai tessuti molli, piuttosto che dalle sole strutture ossee, migliora significativamente l'accuratezza nella classificazione dell'osteoporosi.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. SurowiecWed, 11 Ma💻 cs

Rotation Equivariant Mamba for Vision Tasks

Il paper propone EQ-VMamba, la prima architettura visiva Mamba con equivarianza alla rotazione che integra strategie di scansione incrociata e blocchi di gruppo per garantire robustezza geometrica e migliorare le prestazioni con il 50% di parametri in meno rispetto ai modelli esistenti.

Zhongchen Zhao, Qi Xie, Keyu Huang, Lei Zhang, Deyu Meng, Zongben XuWed, 11 Ma💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

Il documento propone un sistema di Intelligenza Artificiale Agente come strato di controllo per le reti 6G che gestisce l'apprendimento federato trasformando gli obiettivi di alto livello in azioni adattive, ottimizzando la selezione dei client, l'allocazione delle risorse e la pianificazione in base alle condizioni di rete e alle capacità dei dispositivi.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon HongWed, 11 Ma💻 cs

RTFDNet: Fusion-Decoupling for Robust RGB-T Segmentation

Il paper presenta RTFDNet, un'architettura encoder-decoder a tre rami che unifica fusione e disaccoppiamento tramite meccanismi di regolarizzazione innovativi per migliorare la robustezza della segmentazione semantica RGB-T in condizioni di illuminazione scarsa o con segnali sensoriali parzialmente mancanti.

Kunyu Tan, Mingjian LiangWed, 11 Ma💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Il paper presenta RubiCap, un innovativo framework di apprendimento per rinforzo che utilizza rubriche scritte da LLM per generare segnali di ricompensa strutturati e specifici, superando i limiti della distillazione supervisionata e delle precedenti metodologie RL nella generazione di didascalie dense per immagini.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot BilkhuWed, 11 Ma🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Questo lavoro estende il framework POLISH per la ricostruzione di immagini interferometriche radio, introducendo strategie di addestramento a patch e trasformazioni di intensità non lineari che permettono di gestire campi visivi ampi e alti rapporti dinamici, migliorando significativamente la scoperta di lenti gravitazionali forti nei dati simulati del DSA.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. BoumanWed, 11 Ma🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

Il paper propone PS-Mamba, un framework gerarchico di modelli a spazio di stato che supera le limitazioni dei modelli Mamba esistenti nel restauro delle immagini preservando la topologia spaziale e mitigando il decadimento delle informazioni a lunga distanza attraverso partizioni geometriche progressive e percorsi di shortcut simmetrici.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim RadwanWed, 11 Ma💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

Il paper presenta SAGE, il primo modello linguistico grande multimodale end-to-end che elabora direttamente nuvole di punti grezze trattandole come un "linguaggio straniero" tramite un tokenizzatore 3D leggero e una strategia di ottimizzazione delle preferenze, superando i metodi basati su encoder pre-addestrati in termini di efficienza computazionale, allineamento semantico e robustezza.

Sneha Paul, Zachary Patterson, Nizar BouguilaWed, 11 Ma💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Il paper presenta MM-Zero, il primo framework basato sul reinforcement learning che permette l'auto-evoluzione a partire da zero dati per i modelli visione-linguaggio, introducendo un innovativo sistema multi-ruolo (Propositore, Programmatore e Risolutore) che genera concetti visivi astratti, li traduce in codice eseguibile e li utilizza per il ragionamento multimodale senza necessità di dati iniziali.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao LiuWed, 11 Ma🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Questo articolo propone un framework di apprendimento metrico basato su descrittori geometrici invarianti (angoli inter-articolari) derivati da punti chiave statici delle mani, che supera i limiti delle rappresentazioni coordinate tradizionali consentendo un trasferimento cross-linguistico efficace nel riconoscimento della lingua dei segni con pochi esempi.

Chayanin Chamachot, Kanokphan LertniponphanWed, 11 Ma💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Il paper presenta TubeMLLM, un modello fondazionale multimodale che integra conoscenze topologiche tramite prompt testuali e un'architettura condivisa per migliorare la percezione e la generazione coerente di anatomie vascolari, superando gli attuali limiti di consistenza topologica e dimostrando prestazioni all'avanguardia in compiti zero-shot su diverse modalità di imaging medico.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun GuWed, 11 Ma💻 cs

Distributed Convolutional Neural Networks for Object Recognition

Questo articolo propone una nuova funzione di perdita per le reti neurali convoluzionali distribuite (DisCNN) che, mappando i campioni positivi in uno spazio compatto e quelli negativi nell'origine, estrae esclusivamente le caratteristiche della classe positiva, garantendo un'architettura leggera, un'eccellente generalizzazione su dati non visti e una rilevazione efficace degli oggetti in contesti complessi.

Liang SunWed, 11 Ma💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

Il paper presenta UniField, un framework unificato per il potenziamento delle immagini MRI che sfrutta modelli fondazionali 3D e un meccanismo di rettifica spettrale consapevole del campo magnetico per superare i limiti di generalizzazione e scarsità dei dati, supportato dal rilascio di un nuovo dataset multi-campo su larga scala.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan YuanWed, 11 Ma💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

Il paper presenta HelixTrack, un metodo basato su eventi che traccia oggetti simili a eliche e ne stima il regime di rotazione (RPM) con latenza microsecondica, superando i limiti dei metodi basati su fotogrammi e introducendo il nuovo dataset TQE per validare le prestazioni in scenari di movimento ego e distrattori.

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri MatasWed, 11 Ma💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Il paper presenta BridgeDiff, un framework basato su diffusione che supera le limitazioni dei metodi precedenti per la sintesi di indumenti piatti partendo da osservazioni umane, integrando moduli specifici per collegare l'aspetto globale e le strutture piatte e ottenendo così risultati all'avanguardia nella ricostruzione di indumenti virtuali.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu LiuWed, 11 Ma🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Il paper propone RAE-NWM, un modello di navigazione che opera nello spazio delle rappresentazioni visive dense di DINOv2 invece che in uno spazio latente compresso, utilizzando un Conditional Diffusion Transformer per migliorare la stabilità strutturale e la precisione delle azioni durante la pianificazione.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

← Precedente Successivo →