cs.CV articoli | Gist.Science

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

Il paper introduce M³CAD, un benchmark completo e multimodale progettato per avanzare la ricerca sulla guida autonoma cooperativa generica, fornendo un vasto dataset, valutazioni di baseline e un nuovo approccio di fusione multi-livello che bilancia efficienza comunicativa e accuratezza percettiva.

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

Il paper presenta FoldNet, un framework che genera un dataset sintetico di indumenti basato su keypoints e texture realistiche, addestrando una politica di piegatura a ciclo chiuso tramite apprendimento per imitazione e il metodo KG-DAgger per migliorare la robustezza, ottenendo un tasso di successo del 75% nel mondo reale.

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

Il paper presenta MTVCraft, un framework innovativo che supera i limiti delle tecniche tradizionali basate su immagini 2D tokenizzando direttamente le sequenze di movimento 3D (4D) per abilitare un'animazione di personaggi arbitrari più robusta, flessibile e generalizzabile in scenari aperti.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

Il paper propone un framework unificato di meta-apprendimento profondo basato su ottimizzazione srotolata che, integrando regolarizzazione non convessa e adattamento rapido, migliora significativamente la ricostruzione e la sintesi di risonanza magnetica accelerata multi-bobina e multi-modale rispetto ai metodi supervisionati tradizionali.

Merham Fouladvand, Peuroly Batra2026-03-10🔢 math

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Il paper presenta EgoDex, il più ampio e diversificato dataset esistente di manipolazione abile umana registrato con Apple Vision Pro, che offre 829 ore di video egocentrici con annotazioni 3D delle mani per affrontare la scarsità di dati nell'apprendimento per imitazione e promuovere i progressi nella robotica e nella visione artificiale.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

Il paper presenta Vid2World, un approccio generale che trasforma modelli di diffusione video pre-addestrati in modelli del mondo interattivi ad alta fedeltà, permettendo una generazione autoregressiva e un controllo efficace delle azioni attraverso la causalizzazione dell'architettura e una guida causale.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

Il paper presenta un innovativo framework "solver-in-the-loop" che combina un generatore 3D pre-addestrato con un rigoroso risolutore di equazioni integrali di contorno per ricostruire interfacce complesse nella tomografia a impedenza elettrica 3D, garantendo coerenza fisica rigorosa e alta efficienza dei dati attraverso vincoli fisici rigidi e regolarizzazione basata su prior generativi.

Haibo Liu, Junqing Chen, Guang Lin2026-03-10🔢 math

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Il paper introduce ViTaPEs, un'architettura transformer che utilizza codifiche posizionali visuo-tattili a due stadi per allineare le modalità in modo efficace, superando gli stati dell'arte in compiti di riconoscimento e generalizzazione zero-shot senza dipendere da modelli pre-addestrati.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Il paper propone un approccio di apprendimento semi-auto-supervisionato basato su GLMask, che trasforma la segmentazione semantica in quella istanziale con annotazioni minime, ottenendo risultati all'avanguardia nella segmentazione delle spighe di grano e miglioramenti significativi sul dataset COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Questo studio presenta un framework di deep learning basato su una GAN con penalità di varianza che trasforma immagini istologiche H&E in immagini IHC ad alta fedeltà per la valutazione precisa dell'HER2 nel cancro al seno, superando le prestazioni dei modelli esistenti e offrendo un'alternativa economica e scalabile alla diagnostica tradizionale.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Il paper presenta LINO UniPS, un approccio unificato per la fotometria stereoscopica universale che, grazie a token di registrazione luminosa, blocchi di attenzione intercalati e un'architettura basata su wavelet, garantisce il disaccoppiamento tra illuminazione e normali preservando i dettagli geometrici ad alta frequenza, ottenendo risultati all'avanguardia su benchmark pubblici e generalizzando meglio ai materiali reali.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Questo articolo propone un nuovo framework a cascata guidato da modelli visione-linguaggio che utilizza le loro caratteristiche come prompt espliciti per il Segment Anything Model al fine di migliorare la segmentazione e, sfruttando l'output come prior spaziale morbida, la classificazione degli oggetti mimetizzati in scenari a vocabolario aperto, superando così le limitazioni delle metodologie precedenti.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Il paper presenta LD-RPS, un metodo zero-shot e unificato per il ripristino delle immagini che utilizza il campionamento ricorsivo del posteriore su un modello di diffusione latente pre-addestrato, integrato con un modello di comprensione multimodale per fornire priori semantici e un modulo leggero per l'allineamento, superando così i limiti dei metodi esistenti senza richiedere dataset di addestramento.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

Il paper dimostra che adottare una dieta visiva ispirata allo sviluppo umano, che guida l'apprendimento dei modelli AI attraverso un curriculum progressivo di acuità, sensibilità al contrasto e colore, permette di ottenere sistemi di visione artificiale più robusti, resilienti e basati sulla forma, colmando il divario tra intelligenza artificiale e percezione umana.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Il paper propone QAA, un metodo di aggregazione adattiva basato su query che migliora la generalizzazione del Riconoscimento Visivo dei Luoghi (VPR) attraverso l'addestramento congiunto su più dataset, superando i limiti dei modelli attuali senza aumentare significativamente la complessità computazionale.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Il paper propone MCULoRA, un nuovo framework basato su un adattamento a basso rango decoupled e dinamico che risolve i conflitti di gradiente nell'addestramento di modelli per il riconoscimento delle emozioni con modalità incomplete, ottenendo prestazioni superiori rispetto agli approcci esistenti.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

Il paper presenta Mamba Snake, un nuovo framework di deep snake basato sulla modellazione degli spazi di stato che risolve le sfide dell'segmentazione medica unificata modellando le relazioni topologiche inter-organo e affinando i contorni microscopici, ottenendo prestazioni superiori rispetto agli stati dell'arte su cinque dataset clinici.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

Il paper introduce $\pi^3$ , una rete neurale feed-forward permutazionalmente equivariante che supera i limiti dei metodi basati su una vista di riferimento fissa, ottenendo prestazioni all'avanguardia nella ricostruzione geometrica visiva, nella stima della posa della camera e nella profondità senza bisogno di frame di riferimento.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Il paper presenta InsightX Agent, un innovativo framework basato su modelli multimodali di grandi dimensioni che integra strumenti di rilevamento e riflessione per fornire analisi di NDT a raggi X più affidabili, interpretabili e interattive, ottenendo un punteggio F1 del 96,54% sul dataset GDXray+.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Questo studio propone un framework di deep learning basato su Vision Transformer (ViT) che, utilizzando immagini Sentinel-2 e Formosat-5 e un approccio di apprendimento semi-supervisionato per espandere le annotazioni manuali, migliora la segmentazione delle aree colpite da disastri naturali, ottimizzando così il prodotto EVAP dell'Agenzia Spaziale Taiwanese (TASA).

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

← Precedente Successivo →

cs.CV