cs.CV articoli | Gist.Science

FedEU: Evidential Uncertainty-Driven Federated Fine-Tuning of Vision Foundation Models for Remote Sensing Image Segmentation

Il paper presenta FedEU, un framework di ottimizzazione federata che guida il fine-tuning di modelli foundation per la segmentazione di immagini remote tramite incertezza evidenziale e adattamenti specifici per il client, migliorando così l'affidabilità e la robustezza in ambienti con dati eterogenei.

Xiaokang Zhang, Xuran Xiong, Jianzhong Huang, Lefei Zhang2026-03-10💻 cs

EVLF: Early Vision-Language Fusion for Generative Dataset Distillation

Il paper presenta EVLF, un metodo plug-and-play per la distillazione di dataset generativa che risolve il problema della dominanza testuale nei metodi basati su diffusione fondendo precocemente le rappresentazioni visive e linguistiche, ottenendo così dati sintetici più fedeli e accurati.

Wenqi Cai, Yawen Zou, Guang Li, Chunzhi Gu, Chao Zhang2026-03-10💻 cs

Multi-Modal Decouple and Recouple Network for Robust 3D Object Detection

Il paper propone una rete di decoupling e recoupling multimodale che separa le caratteristiche BEV in parti invarianti e specifiche per migliorare la rilevazione 3D robusta in presenza di corruzioni dei dati, superando le prestazioni degli stati dell'arte su benchmark nuScenes corrotti e puliti.

Rui Ding, Zhaonian Kuang, Yuzhe Ji, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

RobustSCI: Beyond Reconstruction to Restoration for Snapshot Compressive Imaging under Real-World Degradations

Il paper introduce RobustSCI, il primo approccio che sposta l'obiettivo della compressione imaging a scatto (SCI) video dalla semplice ricostruzione alla restaurazione, permettendo di recuperare scene originali da misurazioni degradate da motion blur e scarsa illuminazione grazie a un nuovo blocco di rete e a un benchmark realistico.

Hao Wang, Yuanfan Li, Qi Zhou, Zhankuo Xu, Jiong Ni, Xin Yuan2026-03-10💻 cs

RayD3D: Distilling Depth Knowledge Along the Ray for Robust Multi-View 3D Object Detection

Il paper propone RayD3D, un metodo di distillazione della conoscenza che trasferisce informazioni sulla profondità lungo i raggi ottici per migliorare la robustezza e l'accuratezza della rilevazione 3D multi-vista in scenari reali, riducendo l'influenza di dati irrilevanti come la densità del LiDAR.

Rui Ding, Zhaonian Kuang, Zongwei Zhou, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

Il paper presenta DocCogito, un framework unificato che allinea la percezione globale del layout con un ragionamento strutturato e ancorato alle regioni visive, ottenendo risultati all'avanguardia su diversi benchmark di comprensione documentale.

Yuchuan Wu, Minghan Zhuo, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue2026-03-10💻 cs

AMR-CCR: Anchored Modular Retrieval for Continual Chinese Character Recognition

Il paper presenta AMR-CCR, un framework di recupero modulare ancorato progettato per il riconoscimento continuo dei caratteri cinesi antichi, che affronta le sfide dell'incremento delle classi e della diversità stilistica attraverso un'architettura di corrispondenza a dizionario e un nuovo benchmark chiamato EvoCON.

Yuchuan Wu, Yinglian Zhu, Haiyang Yu, Ke Niu, Bin Li, Xiangyang Xue2026-03-10💻 cs

High-Fidelity Medical Shape Generation via Skeletal Latent Diffusion

Questo lavoro propone un framework di diffusione latente basato su scheletri che, sfruttando un nuovo dataset medico su larga scala chiamato MedSDF, genera forme anatomiche ad alta fedeltà con maggiore efficienza computazionale rispetto alle tecniche esistenti.

Guoqing Zhang, Jingyun Yang, Siqi Chen, Anping Zhang, Yang Li2026-03-10💻 cs

A Unified View of Drifting and Score-Based Models

Questo articolo stabilisce un legame preciso tra i modelli di "drifting" e quelli basati sul punteggio (score-based), dimostrando che il campo di spostamento medio con kernel Gaussiano coincide con la differenza dei punteggi su distribuzioni smussate e fornendo una decomposizione esatta e limiti di errore per kernel radiali generali, incluso il kernel Laplace.

Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao2026-03-10🤖 cs.LG

EvolveReason: Self-Evolving Reasoning Paradigm for Explainable Deepfake Facial Image Identification

Il paper presenta EvolveReason, un paradigma di ragionamento auto-evolutivo che combina un dataset a catena di pensiero, la cattura di cue di falsificazione nello spazio latente e una strategia di esplorazione basata sul reinforcement learning per migliorare l'identificazione e la spiegazione delle immagini facciali deepfake riducendo le allucinazioni dei modelli.

Binjia Zhou, Dawei Luo, Shuai Chen, Feng Xu, Seow, Haoyuan Li, Jiachi Wang, Jiawen Wang, Zunlei Feng, Yijun Bei2026-03-10💻 cs

SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

Il lavoro presenta SketchGraphNet, un'architettura ibrida memory-efficient per il riconoscimento di schizzi su larga scala che modella direttamente i disegni a mano libera come grafi strutturati, ottenendo prestazioni elevate sul nuovo benchmark SketchGraph composto da 3,44 milioni di campioni.

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

ACCURATE: Arbitrary-shaped Continuum Reconstruction Under Robust Adaptive Two-view Estimation

Il paper presenta ACCURATE, un framework di ricostruzione 3D che combina una rete neurale di segmentazione con un algoritmo di ottimizzazione geometrica per ricostruire con alta precisione corpi continui deformabili di forma arbitraria, come cateteri e guidewire, garantendo coerenza biplanare e robustezza alle occlusioni.

Yaozhi Zhang, Shun Yu, Yugang Zhang, Yang Liu2026-03-10💻 cs

Scale-Aware UAV-to-Satellite Cross-View Geo-Localization: A Semantic Geometric Approach

Questo articolo propone un approccio geometrico-semantico che risolve il problema dell'ambiguità di scala nella geolocalizzazione incrociata tra immagini UAV e satellitari, recuperando la scala metrica assoluta tramite l'uso di veicoli come ancoraggi semantic e un modello di proiezione stereoscopica disaccoppiato per migliorare l'allineamento delle caratteristiche e la robustezza del sistema.

Yibin Ye, Shuo Chen, Kun Wang, Xiaokai Song, Jisheng Dang, Qifeng Yu, Xichao Teng, Zhang Li2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Il paper introduce UniLongGen, una strategia di inferenza senza addestramento che risolve il collasso della qualità nella generazione di immagini intercalate a lungo termine curando dinamicamente la memoria del modello per eliminare i segnali visivi interferenti, garantendo così stabilità e coerenza nelle narrazioni estese.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

Il paper presenta CONSTANT, un nuovo metodo basato su modelli di diffusione che utilizza l'enhancement contrastivo a patch e la quantizzazione consapevole dello stile per generare immagini di scrittura a mano di alta qualità partendo da un'unica immagine di riferimento, superando le limitazioni delle tecniche attuali nella cattura delle caratteristiche stilistiche complesse.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran2026-03-10💻 cs

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

Il paper presenta DreamSAC, un framework che combina un'espansione esplorativa basata sulla simmetria e un modello del mondo hamiltoniano per apprendere leggi fisiche invarianti, permettendo così un'eccezionale generalizzazione estrattiva in simulazioni fisiche 3D.

Jinzhou Tang, Fan Feng, Minghao Fu, Wenjun Lin, Biwei Huang, Keze Wang2026-03-10🤖 cs.LG

ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

Il paper presenta ReconDrive, un framework feed-forward che estende il modello fondazionale VGGT per generare rapidamente rappresentazioni 4D Gaussian Splatting ad alta fedeltà di scene di guida autonome, superando i limiti di scalabilità dei metodi iterativi e la qualità ridotta degli approcci feed-forward esistenti.

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning

Questo lavoro propone un framework di inferenza attiva per il riconoscimento di micro-gesti che, combinando il campionamento temporale guidato dall'Energia Libera Attesa (EFE) e un apprendimento adattivo consapevole dell'incertezza, supera le limitazioni dei modelli esistenti in condizioni di basso campione, rumore e variabilità inter-soggetto.

Weijia Feng, Jingyu Yang, Ruojia Zhang, Fengtao Sun, Qian Gao, Chenyang Wang, Tongtong Su, Jia Guo, Xiaobai Li, Minglai Shao2026-03-10💻 cs

PureCC: Pure Learning for Text-to-Image Concept Customization

Il paper presenta PureCC, un nuovo metodo di apprendimento puro per la personalizzazione dei concetti testo-immagine che, attraverso un obiettivo di apprendimento disaccoppiato e una scala di guida adattiva, garantisce un'alta fedeltà nella generazione di nuovi concetti preservando al contempo le capacità e il comportamento originale del modello.

Zhichao Liao, Xiaole Xian, Qingyu Li, Wenyu Qin, Meng Wang, Weicheng Xie, Siyang Song, Pingfa Feng, Long Zeng, Liang Pan2026-03-10💻 cs

Brain-WM: Brain Glioblastoma World Model

Il paper presenta Brain-WM, un modello mondiale pionieristico per il glioblastoma che unisce la previsione del trattamento e la generazione di future risonanze magnetiche in un'unica architettura Y-shaped per catturare la dinamica co-evolutiva tra tumore e terapia, dimostrando prestazioni superiori nella pianificazione clinica.

Chenhui Wang, Boyun Zheng, Liuxin Bao, Zhihao Peng, Peter Y. M. Woo, Hongming Shan, Yixuan Yuan2026-03-10💻 cs

← Precedente Successivo →