cs.CV articoli | Gist.Science

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Il paper presenta SVG-EAR, un metodo senza parametri che migliora l'efficienza della generazione video tramite Diffusion Transformers utilizzando una compensazione lineare basata su centroidi e un routing consapevole dell'errore per recuperare le informazioni perse nella sparsificazione, ottenendo significativi guadagni di velocità senza compromettere la qualità.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung2026-03-11💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

Il paper presenta SurgCalib, un framework automatico e senza marcatori basato su Gaussian Splatting per la calibrazione mano-occhio del robot chirurgico da Vinci, che risolve le sfide delle misurazioni imprecise dei robot a cavo attraverso un'ottimizzazione differenziabile sotto vincolo RCM, ottenendo errori di riproiezione e di distanza 3D ridotti sul benchmark dVRK.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. Salcudean2026-03-11💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

Il paper presenta SkipGS, un metodo plug-and-play che accelera l'addestramento del 3D Gaussian Splatting riducendo del 23,1% il tempo totale attraverso un meccanismo adattivo che salta selettivamente le fasi di backpropagation quando i gradienti sono ridondanti, mantenendo al contempo una qualità di ricostruzione comparabile.

Jingxing Li, Yongjae Leeand, Deliang Fan2026-03-11💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

Questo lavoro propone un nuovo framework di autenticazione basato su diffusione che, sfruttando la firma della stampante e il condizionamento multimodale, supera i limiti dei metodi tradizionali nel distinguere i codici di rilevamento copie originali dalle contraffazioni ad alta qualità.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-Junior2026-03-11💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

Il paper propone Normalized Flow Matching (NFM), un nuovo metodo che distilla l'accoppiamento quasi-deterministico di modelli di Flussi Normalizzanti preaddestrati per addestrare modelli di Flow Matching studenti, ottenendo prestazioni superiori sia rispetto ai tradizionali accoppiamenti indipendenti o di trasporto ottimo, sia rispetto al modello insegnante stesso.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei Zhai2026-03-11🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Questo lavoro propone una misura di piattezza esatta e fedele all'architettura per le CNN, derivando un'espressione in forma chiusa per la traccia dell'Hessiano e specializzandola per i livelli convoluzionali, dimostrando empiricamente la sua efficacia come strumento robusto per stimare le prestazioni di generalizzazione e guidare la progettazione dei modelli.

Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti2026-03-11🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Il documento presenta WS-Net, un framework di deep learning che combina modellazione a spazio di stato (Mamba) e un meccanismo di attenzione per segnali deboli, al fine di migliorare l'accuratezza della stima delle abbondanze nell'unmixing iperspettrale, specialmente in presenza di risposte spettrali deboli e rumore.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun Zhou2026-03-11🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

Il paper introduce SpectralDiff, un framework basato sulla diffusione strutturata nello spettro che combina perturbazioni spettrali mirate e un'architettura U-Net a prodotto completo per rimuovere efficacemente le striature di pioggia da immagini singole, offrendo prestazioni competitive con maggiore efficienza computazionale rispetto ai metodi esistenti.

Yucheng Xing, Xin Wang2026-03-11💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Questo studio propone un framework potenziato basato su YOLOv8 che integra rilevamento di incendi e fumo con un'analisi di prossimità per valutare i rischi nei cantieri ingegneristici, calcolando distanze reali e generando un punteggio di rischio quantitativo con prestazioni superiori al 90% di precisione.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan Ubaid2026-03-11💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Il paper presenta GST-VLA, un modello Vision-Language-Action che introduce un Tokenizzatore Spaziale Gaussiano per rappresentare le osservazioni visive come primitive 3D anisotrope e un meccanismo di ragionamento CoT sensibile alla profondità, ottenendo prestazioni superiori su compiti robotici complessi grazie a una rappresentazione geometrica strutturata e a un'architettura di azione basata sul flow-matching.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

Il paper presenta OmniEdit, un framework senza addestramento che risolve la sincronizzazione labiale e l'editing audio-visivo sostituendo la sequenza di modifica in FlowEdit con la sequenza target per ottenere stime non distorte e traiettorie di editing stabili.

Lixiang Lin, Siyuan Jin, Jinshan Zhang2026-03-11💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Questo paper propone un nuovo framework per la generazione di video fisicamente plausibili che, scomponendo i fenomeni in catene di eventi causalmente collegati tramite ragionamento guidato da leggi fisiche e prompt multimodali adattivi, supera i limiti degli approcci attuali nel modellare la progressione causale dinamica.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei2026-03-11💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Questo studio diagnostica il "gap di modalità" che riduce le prestazioni dei modelli linguistici multimodali quando elaborano testo come immagini, identificando le cause degli errori di lettura e proponendo un metodo di auto-distillazione che ripristina l'accuratezza fino a livelli superiori al 92% senza dimenticare le conoscenze pregresse.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

Il paper propone MedKCO, un metodo di pre-addestramento visione-linguaggio medico che supera i limiti degli approcci attuali orchestrando cognitivamente l'apprendimento attraverso un curriculum a due livelli e una perdita contrastiva asimmetrica auto-addestrante, ottenendo risultati significativamente superiori su diverse attività downstream.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou2026-03-11💻 cs

Training-free Motion Factorization for Compositional Video Generation

Il paper propone un framework di fattorizzazione del movimento che, senza richiedere addestramento, scompone la generazione video composita in tre categorie (staticità, movimento rigido e non rigido) attraverso una fase di pianificazione strutturata e una generazione disaccoppiata, migliorando la sintesi di motion su modelli di diffusione esistenti.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Il paper propone un framework basato su transformer per la ricerca di casi di cancro della pelle mediante query composte da immagine e testo, che migliora le prestazioni attraverso un allineamento congiunto di rappresentazioni globali e locali, ottenendo risultati superiori rispetto agli stati dell'arte sul dataset Derm7pt.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

Il paper presenta VIVID-Med, un innovativo framework che utilizza un grande modello linguistico (LLM) congelato come insegnante semantico strutturato per pre-addestrare efficientemente transformer visivi medici, ottenendo prestazioni superiori con dati ridotti e un modello finale leggero e pronto per il deployment clinico.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

Il paper propone PRLF, un framework di apprendimento rappresentazionale progressivo che affronta l'analisi del sentiment multimodale con modalità mancanti utilizzando un stimatore di affidabilità adattivo e un modulo di interazione progressiva per allineare dinamicamente le modalità e migliorare la robustezza.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian Yang2026-03-11💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Il modello QUSR propone una soluzione innovativa per la super-risoluzione delle immagini in scenari reali complessi, integrando un prior di qualità basato su modelli linguistici multimodali e una generazione di rumore guidata dall'incertezza per preservare i dettagli e ridurre gli artefatti.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Questo studio presenta il primo framework automatizzato basato su trasformatori (SegFormer) per la segmentazione multi-regione di immagini HR-pQCT, dimostrando che l'estrazione di caratteristiche radiomiche dai tessuti molli, piuttosto che dalle sole strutture ossee, migliora significativamente l'accuratezza nella classificazione dell'osteoporosi.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. Surowiec2026-03-11💻 cs

← Precedente Successivo →