cs.CV articoli | Gist.Science

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

Il paper propone il Radiative-Structured Neural Operator (RSNO), un approccio che integra principi fisici e operatori neurali per ricostruire immagini iperspettrali continue da osservazioni multispettrali, garantendo coerenza fisica e riducendo le distorsioni cromatiche attraverso fasi di upsampling, ricostruzione e raffinamento.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

Il paper presenta UnfoldLDM, un nuovo approccio per il ripristino cieco delle immagini che integra le reti di deep unfolding con un modello di diffusione latente, superando le limitazioni delle metodologie esistenti grazie a un modulo di stima della degradazione e a un meccanismo di correzione per i dettagli ad alta frequenza.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Questo lavoro presenta un sistema di tracciamento GNSS basato su droni multipli che integra rilevamento visivo, allineamento degli ID e un filtro di Kalman esteso per garantire un tracciamento stabile e accurato dei robot marini in superficie e in prossimità della superficie.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

Il paper presenta Yo'City, un innovativo framework agentic che utilizza modelli di grandi dimensioni per generare scene urbane 3D realistiche, personalizzabili e infinitamente espandibili attraverso una pianificazione gerarchica e un meccanismo di espansione guidato dall'utente, superando le prestazioni degli stati dell'arte esistenti.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

Shortcut Invariance: Targeted Jacobian Regularization in Disentangled Latent Space

Il paper propone un metodo di regolarizzazione nello spazio latente che, identificando gli assi correlati alle scorciatoie in uno spazio disaccoppiato e iniettando rumore anisotropo mirato, impone un'invarianza funzionale per migliorare la generalizzazione fuori distribuzione senza richiedere etichette di scorciatoia o esempi conflittuali.

Shivam Pal, Sakshi Varshney, Piyush Rai2026-03-10🤖 cs.LG

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

Questo studio presenta ForamDeepSlice, un framework di deep learning ad alta precisione che utilizza un ensemble di reti neurali convoluzionali per classificare automaticamente le specie di foraminiferi da fette 2D micro-CT, raggiungendo un'accuratezza del 95,64% e fornendo una dashboard interattiva per l'identificazione micropaleontologica assistita dall'IA.

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

Il paper presenta S2AM3D, un approccio innovativo per la segmentazione di parti in nuvole di punti 3D che combina conoscenze di segmentazione 2D con supervisione 3D coerente e un decoder sensibile alla scala per regolare la granularità, supportato da un nuovo dataset su larga scala che garantisce prestazioni leader e robustezza.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

Il paper introduce HiconAgent, un agente GUI che utilizza l'ottimizzazione della politica consapevole del contesto storico (HCPO) per migliorare l'efficienza e le prestazioni nei compiti di navigazione riducendo il carico computazionale attraverso il campionamento dinamico del contesto e la compressione della storia guidata da ancoraggi.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

Il paper presenta MAViD, un nuovo framework multimodale basato su un'architettura "Conductor-Creator" che integra modelli autoregressivi e di diffusione per comprendere e generare interazioni dialogiche audio-visive coerenti, naturali e a lunga durata.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Questo studio rivela che nei modelli linguistici visivi profondi le informazioni dei token visivi si esauriscono oltre una certa "orizzonte informativo", rendendo la rimozione casuale dei token nelle fasi avanzate più efficace dei metodi di pruning esistenti e permettendo di ottenere risultati all'avanguardia riducendo del 50% i token visivi.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Questo lavoro introduce WildRoad, un nuovo dataset globale per strade off-road, e MaGRoad, un framework di estrazione basato su un ragionamento centrato sul percorso che supera i limiti dei metodi esistenti ottenendo prestazioni allo stato dell'arte e una maggiore efficienza.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

Questo lavoro propone un framework di augmentation dati a due fasi che combina warping basato su regole e traduzione immagine-immagine tramite GAN per generare volti con mascherine realistici, ottenendo miglioramenti significativi nella rilevazione e riconoscimento anche con un set di addestramento molto ridotto rispetto ai metodi esistenti.

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

Il paper presenta SALVE, un quadro unificato che combina autoencoder sparsi e mappatura di salienza per scoprire, validare e controllare meccanicisticamente il comportamento delle reti neurali attraverso interventi precisi nello spazio dei pesi, garantendo sistemi di AI più trasparenti e controllabili.

Vegard Flovik2026-03-10🤖 cs.LG

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

Il paper presenta ReMeDI-SAM3, un'estensione senza addestramento di SAM3 che migliora la segmentazione degli strumenti chirurgici in endoscopia filtrando la memoria, espandendone la capacità e disambiguando le identità dopo le occlusioni, ottenendo risultati superiori rispetto agli approcci esistenti su diversi dataset.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Questo studio analizza le discrepanze tra la percezione soggettiva e la misurazione oggettiva del verde urbano in cinque paesi, rivelando che, sebbene i dati demografici e la personalità non influenzino significativamente la percezione, il luogo di residenza dell'individuo è il fattore determinante che modella come le persone osservano il verde nelle città.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

Il paper introduce Re-Depth Anything, un framework di auto-supervisione a test-time che migliora l'estimazione della profondità monoculari fondendo modelli fondazionali con prior di diffusione su larga scala per affinare le mappe di profondità tramite ricreazione dell'illuminazione e Score Distillation Sampling, ottenendo risultati all'avanguardia senza richiedere etichette.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

Il paper presenta VOIC, un nuovo framework a doppio decodificatore che risolve il problema della diluizione delle caratteristiche nella completazione semantica di scene 3D da singola immagine separando esplicitamente la percezione delle regioni visibili dal ragionamento sulle regioni occluse, ottenendo così prestazioni state-of-the-art sui benchmark SemanticKITTI e SSCBench-KITTI360.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

Il paper propone un framework efficiente per la super-risoluzione delle immagini MRI basato su un modello ibrido di stato spaziale selettivo (MHSSM) e MLP, che supera i metodi esistenti in accuratezza e dettaglio anatomico riducendo drasticamente i parametri e il carico computazionale.

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Il paper presenta DrivingGen, il primo benchmark completo per i modelli di mondo generativi nella guida autonoma, che combina un dataset diversificato e nuove metriche per valutare realisticamente la coerenza temporale, la plausibilità delle traiettorie e il controllo, colmando le lacune delle valutazioni attuali e guidando lo sviluppo di simulatori affidabili.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Questo lavoro presenta un framework vision-language leggero e spiegabile basato su Swin Transformer e T5, che utilizza una strategia di addestramento in due fasi per ottenere prestazioni quasi perfette nell'identificazione e nella spiegazione delle malattie delle colture attraverso il Visual Question Answering.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

← Precedente Successivo →