cs.CV articoli | Gist.Science

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Il paper introduce FireScope, un framework basato su modelli visivo-linguistici che integra ragionamento causale e dati multimodali per generare mappe di rischio incendi ad alta risoluzione con elevata generalizzazione transcontinentale e interpretabilità.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Il paper presenta VeilGen, un modello generativo non supervisionato che stima mappe latenti di trasmissione e bagliore per sintetizzare dati realistici, e DeVeiler, una rete di restauro che utilizza queste mappe per rimuovere efficacemente il bagliore velante dai sistemi ottici semplificati.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification

Il paper introduce UAM, un nuovo backbone unificato che combina in modo flessibile le capacità di Attention e Mamba per superare le prestazioni degli attuali modelli fondazionali nella classificazione delle cellule tumorali e nella segmentazione delle immagini.

Taixi Chen, Jingyun Chen, Nancy Guo2026-03-09💻 cs

EgoCogNav: Cognition-aware Human Egocentric Navigation

Il paper presenta EgoCogNav, un framework di navigazione egocentrica multimodale che integra fattori cognitivi e un nuovo dataset reale per prevedere l'incertezza percepita e anticipare comportamenti umani come l'esplorazione e l'esitazione in ambienti non visti.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

Il paper presenta SyncMV4D, il primo modello che genera simultaneamente video multi-vista e movimenti 4D sincronizzati per le interazioni mano-oggetto, unificando priorità visive, dinamiche del movimento e geometria multi-vista per superare i limiti delle metodologie attuali in termini di realismo geometrico e generalizzazione.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

Reversible Inversion for Training-Free Exemplar-guided Image Editing

Il paper introduce ReInversion, un metodo senza addestramento per l'editing guidato da esempi che utilizza un processo di denoising reversibile e una strategia di denoising selettivo guidato da maschere per ottenere risultati all'avanguardia con costi computazionali minimi.

Yuke Li, Lianli Gao, Ji Zhang, Pengpeng Zeng, Lichuan Xiang, Hongkai Wen, Heng Tao Shen, Jingkuan Song2026-03-09💻 cs

A method for tissue-mask supported whole-body image registration in the UK Biobank

Questo studio presenta un metodo di registrazione inter-soggetto per immagini MR corporee totali del UK Biobank che, integrando maschere di tessuto adiposo sottocutaneo e muscolare nel processo di registrazione, supera significativamente le tecniche esistenti in termini di precisione anatomica e utilità per l'analisi dei dati di ricerca medica.

Yasemin Utkueri, Elin Lundström, Håkan Ahlström, Johan Öfverstedt, Joel Kullberg2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

Il paper presenta UniTS, un modello generativo spaziotemporale unificato basato sul flow matching che integra ricostruzione, rimozione delle nuvole, rilevamento dei cambiamenti e previsione per le immagini satellitari, superando le prestazioni dei modelli specializzati esistenti grazie a un'architettura innovativa con iniettore di condizioni adattivo e modulatore spaziotemporale.

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs

Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation

Questo lavoro propone un metodo basato su nuvole di punti che sfrutta le proprietà spaziotemporali dei flussi di eventi, integrando moduli di convoluzione temporale e rappresentazione potenziata dei bordi per migliorare l'efficienza e l'accuratezza della stima della posa umana rispetto alle tecniche tradizionali.

Haoxian Zhou, Chuanzhi Xu, Langyi Chen, Pengfei Ye, Haodong Chen, Yuk Ying Chung, Qiang Qu2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

Il paper presenta DFIR-DETR, un rilevatore basato su transformer che risolve le sfide della rilevazione di oggetti piccoli in scene complesse attraverso l'aggregazione dinamica di caratteristiche, una piramide di funzionalità adattiva e un raffinamento iterativo nel dominio della frequenza, ottenendo prestazioni superiori con un'efficienza computazionale ridotta.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Fast-BEV++: Fast by Algorithm, Deployable by Design

Il paper introduce Fast-BEV++, un framework di percezione BEV basato su visione che risolve il compromesso tra accuratezza ed efficienza di deployment, ottenendo un nuovo stato dell'arte di 0,488 NDS su nuScenes e oltre 134 FPS grazie a un'architettura ottimizzata per l'hardware che elimina la dipendenza da kernel personalizzati.

Yuanpeng Chen, Hui Song, Sheng Yang, Wei Tao, Shanhui Mo, Shuang Zhang, Xiao Hua, Tiankun Zhao2026-03-09💻 cs

Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

Questo articolo presenta un framework che combina la selezione di sottoinsiemi submodulare con la stima dell'incertezza basata su gradienti per migliorare la robustezza e la fedeltà delle spiegazioni visive in scenari fuori distribuzione, senza richiedere addestramento aggiuntivo.

Madhav Gupta, Vishak Prasad C, Ganesh Ramakrishnan2026-03-09🤖 cs.LG

Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement

Il paper introduce Photo3D, un framework che migliora la generazione 3D fotorealistica sfruttando immagini sintetiche di GPT-4o-Image all'interno di una pipeline di sintesi multi-vista allineata alla struttura, permettendo così di arricchire la geometria 3D nativa con dettagli realistici mantenendo la coerenza strutturale.

Xinyue Liang, Zhinyuan Ma, Lingchen Sun, Yanjun Guo, Lei Zhang2026-03-09💻 cs

Modular Neural Image Signal Processing

Questo articolo presenta un framework modulare di elaborazione del segnale immagine (ISP) basato sull'apprendimento automatico che, garantendo il controllo completo delle fasi intermedie di rendering, migliora scalabilità, debug, generalizzazione e flessibilità stilistica, consentendo inoltre la creazione di strumenti di editing fotografico interattivi con possibilità di ridisegno illimitato.

Mahmoud Afifi, Zhongling Wang, Ran Zhang, Michael S. Brown2026-03-09💻 cs

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Questo studio introduce un nuovo approccio basato su patch per l'analisi topologica dei dati (TDA) applicato alle immagini TC volumetriche, che supera i metodi tradizionali in termini di accuratezza diagnostica e tempi di calcolo, offrendo inoltre un pacchetto Python per facilitarne l'uso.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Towards Scalable Pre-training of Visual Tokenizers for Generation

Il paper presenta VTP, un framework di pre-addestramento unificato per tokenizzatori visivi che, ottimizzando congiuntamente perdite di contrasto, auto-supervisionate e di ricostruzione, risolve il problema della scalabilità nel pre-addestramento dimostrando che la comprensione semantica è fondamentale per una generazione di immagini di alta qualità e scalabile.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang2026-03-09💻 cs

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

Il paper CASA reinvestiga l'efficacia dell'attenzione incrociata per la fusione visione-linguaggio, dimostrando che, sebbene spesso sottostimata, questa architettura raggiunge prestazioni competitive rispetto all'inserimento diretto dei token offrendo al contempo vantaggi significativi in termini di efficienza computazionale e memoria per applicazioni video in tempo reale.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

Pretraining Frame Preservation for Lightweight Autoregressive Video History Embedding

Il paper presenta un codificatore storico leggero e preaddestrato che mappa lunghi history video in embedding compatti, garantendo coerenza temporale e prestazioni paragonabili a soluzioni più pesanti per la generazione video autoregressiva in contesti con risorse limitate.

Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala2026-03-09💻 cs

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

Il paper presenta Spatial4D-Bench, un benchmark su larga scala composto da circa 40.000 coppie domanda-risposta e 18 task organizzati in sei categorie cognitive, progettato per valutare in modo completo le capacità di ragionamento spaziale 4D dei modelli linguistici multimodali e rivelare le loro attuali limitazioni rispetto all'intelligenza umana.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs

Bayesian Monocular Depth Refinement via Neural Radiance Fields

Il paper propone MDENeRF, un framework iterativo che affina le stime di profondità monoculare fondendo un prior globale con dettagli geometrici ad alta frequenza e incertezze bayesiane estratte da Neural Radiance Fields (NeRF) per migliorare la comprensione della scena.

Arun Muthukkumar2026-03-09🤖 cs.LG

← Precedente Successivo →