cs.CV articoli | Gist.Science

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Questo articolo propone un modello di diffusione agnostico rispetto al problema, basato sulla stima del termine guidato tramite MAP, che sfrutta score network preaddestrati e un prior gaussiano per risolvere problemi inversi nell'elaborazione delle immagini con una migliore preservazione dei contenuti rispetto agli stati dell'arte.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

Il paper presenta GPC, un framework di controllo generativo che combina clonazione comportamentale, modelli predittivi del mondo e pianificazione online per superare le prestazioni della clonazione comportamentale in compiti di manipolazione robotica sia in simulazione che nel mondo reale.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

Il paper presenta VL-Nav, un sistema di navigazione visione-linguaggio neuro-simbolico che combina ragionamento neurale e guida simbolica per decomporre compiti complessi e ottimizzare l'esplorazione, ottenendo risultati di successo superiori nell'83,4% dei casi in ambienti indoor e nell'86,3% in esperimenti reali.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

Il paper introduce Prompt-SID, un framework di denoising per immagini singole basato sull'apprendimento di prompt strutturali generati tramite un processo di diffusione latente e integrati in un denoiser transformer, che addestrato in modo auto-supervisionato preserva efficacemente i dettagli strutturali superando i limiti delle metodologie esistenti.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

LaVCa: LLM-assisted Visual Cortex Captioning

Il paper presenta LaVCa, un approccio basato su modelli linguistici di grandi dimensioni (LLM) che genera didascalie naturali per descrivere con maggiore precisione e dettaglio la selettività dei voxel nella corteccia visiva umana, superando i limiti dei modelli di codifica tradizionali e rivelando nuove sfumature nella rappresentazione visiva del cervello.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Questo studio presenta un algoritmo che fonde immagini MRI multimodali pre-elaborate e segmentate tramite architetture UNET in 2D e 3D, per poi classificarle con un modello ResNet50, ottenendo un'accuratezza del 99,25% nella sottoclassificazione dei gliomi.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Questo lavoro propone LOOP, un nuovo metodo di apprendimento per rinforzo che combina le tecniche di riduzione della varianza di REINFORCE con la robustezza di PPO per ottimizzare il fine-tuning dei modelli di diffusione testo-immagine, ottenendo un miglior equilibrio tra efficienza nel campionamento e prestazioni finali.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Il paper propone un modello di apprendimento profondo geometrico basato su transformer che, integrando punti di riferimento anatomici in mesh tetraedriche derivanti da risonanza magnetica strutturale, migliora la diagnosi dell'Alzheimer e la previsione della positività all'amiloide cerebrale, riducendo la necessità di scansioni PET costose e invasive.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

Il paper introduce Snapmoji, un sistema che genera istantaneamente avatar 3D animabili e personalizzabili su dispositivi mobili a 30-40 FPS, trasformando un selfie in uno stile principale tramite l'adattamento del dominio Gaussiano (GDA) e applicando successivamente uno stile secondario pur preservando l'identità dell'utente.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

Il paper presenta SceneEval, un nuovo framework di valutazione e un benchmark di 500 campioni (SceneEval-500) progettati per misurare in modo completo e interpretabile la coerenza semantica e il rispetto delle specifiche testuali nella sintesi di scene 3D interne, evidenziando le lacune attuali nei metodi di generazione esistenti.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Questo paper propone un nuovo approccio per l'apprendimento compatibile con il passato che, rilassando i vincoli di allineamento tramite perturbazioni sui prototipi delle vecchie caratteristiche, preserva la capacità discriminatoria del nuovo modello senza richiedere il costoso ricalcolo delle embedding.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Questo lavoro propone un metodo unificato per la ricostruzione robusta di due mani da immagini monoculare, che combina un codificatore di fusione per allineare eterogenee priorità 2D da modelli fondazionali con un modello di diffusione privo di penetrazione per garantire interazioni 3D fisicamente plausibili e coerenti.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

Point-based Instance Completion with Scene Constraints

Il paper propone un modello di completamento istanza basato su nuvole di punti che integra vincoli di scena tramite un meccanismo di cross-attention per gestire oggetti a scale e pose arbitrarie, accompagnato dalla creazione del nuovo dataset ScanWCF per valutare il completamento in ambienti interni.

Wesley Khademi, Li Fuxin2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

Il documento presenta LEL, un innovativo framework di apprendimento ensemble vincolato dalla continuità di Lipschitz che migliora stabilità, accuratezza e robustezza nel riconoscimento delle emozioni basato su segnali EEG intra-soggetto, ottenendo risultati superiori su tre dataset pubblici.

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

Il paper propone un framework di comunicazione orientato al compito, basato sull'encoder O-VIB ispirato alla cognizione spaziale mammifera, che permette una localizzazione visiva ad alta precisione in ambienti urbani privi di GPS tramite la compressione efficiente delle caratteristiche multi-vista ai margini della rete.

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

Il paper presenta DeepSparse, il primo modello fondazionale per la ricostruzione CBCT a viste sparse, che combina l'architettura DiCE e la strategia di pre-addestramento HyViP per ottenere immagini di alta qualità riducendo l'esposizione alle radiazioni e migliorando la generalizzabilità rispetto ai metodi esistenti.

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

Il paper introduce M³CAD, un benchmark completo e multimodale progettato per avanzare la ricerca sulla guida autonoma cooperativa generica, fornendo un vasto dataset, valutazioni di baseline e un nuovo approccio di fusione multi-livello che bilancia efficienza comunicativa e accuratezza percettiva.

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

Il paper presenta FoldNet, un framework che genera un dataset sintetico di indumenti basato su keypoints e texture realistiche, addestrando una politica di piegatura a ciclo chiuso tramite apprendimento per imitazione e il metodo KG-DAgger per migliorare la robustezza, ottenendo un tasso di successo del 75% nel mondo reale.

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

Il paper presenta MTVCraft, un framework innovativo che supera i limiti delle tecniche tradizionali basate su immagini 2D tokenizzando direttamente le sequenze di movimento 3D (4D) per abilitare un'animazione di personaggi arbitrari più robusta, flessibile e generalizzabile in scenari aperti.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

Il paper propone un framework unificato di meta-apprendimento profondo basato su ottimizzazione srotolata che, integrando regolarizzazione non convessa e adattamento rapido, migliora significativamente la ricostruzione e la sintesi di risonanza magnetica accelerata multi-bobina e multi-modale rispetto ai metodi supervisionati tradizionali.

Merham Fouladvand, Peuroly Batra2026-03-10🔢 math

← Precedente Successivo →