cs.CV articoli | Gist.Science

FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

Il paper presenta FusionRegister, un metodo generale di registrazione guidato da prior visivi che migliora l'efficienza e la robustezza della fusione tra immagini infrarosse e visive rappresentando direttamente le disallineazioni senza richiedere pre-registrazioni estese.

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu2026-03-10💻 cs

UniUncer: Unified Dynamic Static Uncertainty for End to End Driving

Il paper presenta UniUncer, un framework unificato e leggero che stima e integra congiuntamente l'incertezza statica e dinamica all'interno di sistemi di guida end-to-end, migliorando significativamente l'affidabilità e le prestazioni di pianificazione su scenari complessi.

Yu Gao, Jijun Wang, Zongzheng Zhang, Anqing Jiang, Yiru Wang, Yuwen Heng, Shuo Wang, Hao Sun, Zhangfeng Hu, Hao Zhao2026-03-10💻 cs

FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT

Il paper introduce FrameVGGT, un framework di memoria esplicita a rotazione basato su frame che risolve il problema della crescita illimitata della cache nei trasformatori geometrici in streaming, garantendo una percezione 3D stabile e un compromesso ottimale tra accuratezza e memoria limitata.

Zhisong Xu, Takeshi Oishi2026-03-10💻 cs

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

Il paper presenta RoboPCA, un framework di apprendimento delle affordance centrato sulla posa che, sfruttando la pipeline Human2Afford per generare annotazioni da dimostrazioni umane, predice congiuntamente regioni di contatto e pose per la manipolazione robotica, superando le limitazioni dei metodi esistenti e dimostrando elevate prestazioni su dati reali e simulati.

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs

Compressed-Domain-Aware Online Video Super-Resolution

Il paper propone CDA-VSR, una rete per la super-risoluzione video online che sfrutta informazioni del dominio compresso (vettori di movimento, mappe residue e tipi di frame) per bilanciare qualità ed efficienza, ottenendo su REDS4 una velocità di inferenza più che doppia rispetto allo stato dell'arte con un lieve miglioramento della qualità.

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

Il paper presenta il Masked Motion Diffusion Model (MMDM), un framework generativo basato su diffusione che, grazie al meccanismo di aggregazione dell'attenzione cinematica (KAA), apprende priors di movimento adattivi al contesto per ricostruire, completare e raffinare dati di movimento 3D incompleti o rumorosi in modo efficiente.

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

Il paper introduce TDM-R1, un nuovo paradigma di apprendimento per rinforzo che, disaccoppiando l'apprendimento della ricompensa da quello del generatore e gestendo segnali non differenziabili, migliora significativamente le prestazioni dei modelli generativi a pochi passi come TDM e Z-Image.

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs

PARSE: Part-Aware Relational Spatial Modeling

Il paper introduce PARSE, un framework che modella le relazioni spaziali a livello di parti degli oggetti tramite un grafo di assemblaggio e un risolutore di vincoli geometrici, permettendo la creazione del dataset PARSE-10K e migliorando significativamente il ragionamento spaziale e la generazione di scene 3D fisicamente coerenti.

Yinuo Bai, Peijun Xu, Kuixiang Shao, Yuyang Jiao, Jingxuan Zhang, Kaixin Yao, Jiayuan Gu, Jingyi Yu2026-03-10💻 cs

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Il paper introduce 3ViewSense, un nuovo framework che colma il divario di intelligenza spaziale nei modelli visione-linguaggio permettendo loro di costruire rappresentazioni mentali 3D coerenti da viste ortografiche attraverso un meccanismo di "simulazione e ragionamento" ispirato alla cognizione ingegneristica.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

Il paper presenta AR2-4FV, un sistema innovativo per il grounding a lungo termine in video a vista fissa che utilizza una "Banca di Ancoraggi" basata sullo sfondo statico e un meccanismo di gating ReID per mantenere la coerenza dell'identità e migliorare significativamente il tasso di ri-cattura e ridurre la latenza quando l'oggetto target è assente o occluso.

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

Il paper presenta DECADE, un modello di diffusione non supervisionato e temporalmente coerente che migliora il denoising delle immagini PET cardiache dinamiche con Rb-82, preservando l'accuratezza quantitativa e la qualità delle immagini senza richiedere dati di addestramento accoppiati.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

Il paper presenta MedQ-Deg, un benchmark multidimensionale che valuta la robustezza e l'affidabilità dei modelli linguistici multimodali medici di fronte a degradazioni della qualità delle immagini, rivelando che le prestazioni peggiorano sistematicamente con l'aumentare della gravità dei difetti e che i modelli soffrono di un "effetto Dunning-Kruger" mantenendo una fiducia eccessiva nonostante il crollo dell'accuratezza.

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

Il documento presenta GK-FedDKD, un approccio federato che integra la distillazione della conoscenza duale e la conoscenza geometrica globale per superare le sfide dell'eterogeneità dei dati nell'analisi delle immagini satellitari di telerilevamento, ottenendo prestazioni superiori rispetto agli stati dell'arte.

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

Parameterized Brushstroke Style Transfer

Questo paper propone un metodo di trasferimento dello stile che rappresenta le immagini nel dominio delle pennellate anziché in quello dei pixel RGB, ottenendo risultati visivamente più naturali e fedeli all'arte reale.

Uma Meleti, Siyu Huang2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Il paper presenta OrdinalBench, un benchmark diagnostico con 39.000 coppie domanda-risposta e un toolkit di valutazione che rivela come i modelli Vision-Language, nonostante le buone prestazioni generali, mostrino gravi limiti nella generalizzazione del ragionamento sequenziale per l'identificazione di oggetti basata su numeri ordinali elevati e percorsi complessi.

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation

Il paper propone SGI, un framework compatto ed efficiente che rappresenta immagini ad alta risoluzione decomponendole in spazi locali multi-scala definiti da semi che generano gaussiane neurali strutturate, permettendo una compressione fino a 7,5 volte superiore e una convergenza più rapida rispetto ai metodi precedenti senza compromettere la fedeltà dell'immagine.

Zixuan Pan, Kaiyuan Tang, Jun Xia, Yifan Qin, Lin Gu, Chaoli Wang, Jianxu Chen, Yiyu Shi2026-03-10💻 cs

4DRC-OCC: Robust Semantic Occupancy Prediction Through Fusion of 4D Radar and Camera

Il paper presenta 4DRC-OCC, il primo studio che fonde dati radar 4D e telecamere per una previsione robusta dell'occupazione semantica 3D, introducendo inoltre un dataset etichettato automaticamente per ridurre la dipendenza dall'annotazione manuale.

David Ninfa, Andras Palffy, Holger Caesar2026-03-10💻 cs

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

Il paper presenta MWM, un modello del mondo mobile che migliora la coerenza delle previsioni condizionate all'azione e l'efficienza dell'inferenza tramite un framework di addestramento in due fasi e una distillazione consistente con l'inferenza, ottenendo risultati superiori nella navigazione basata su pianificazione.

Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang2026-03-10💻 cs

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Il paper introduce HybridStitch, un nuovo paradigma per la generazione Text-to-Image che accelera i modelli di diffusione combinando un modello piccolo per la bozza iniziale e un modello grande per il raffinamento selettivo delle regioni complesse, ottenendo un speedup di 1,83 volte su Stable Diffusion 3.

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs

Tracking Phenological Status and Ecological Interactions in a Hawaiian Cloud Forest Understory using Low-Cost Camera Traps and Visual Foundation Models

Questo studio descrive l'impiego di trappole fotografiche a basso costo e modelli di visione fondazionale nella riserva naturale di Pu'u Maka'ala alle Hawaii per monitorare la fenologia vegetale e le interazioni flora-fauna a livello individuale, rivelando tendenze temporali fini che i metodi tradizionali non riescono a cogliere.

Luke Meyers, Anirudh Potlapally, Yuyan Chen, Mike Long, Tanya Berger-Wolf, Hari Subramoni, Remi Megret, Daniel Rubenstein2026-03-10💻 cs

← Precedente Successivo →