EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Il paper presenta EgoDex, il più ampio e diversificato dataset esistente di manipolazione abile umana registrato con Apple Vision Pro, che offre 829 ore di video egocentrici con annotazioni 3D delle mani per affrontare la scarsità di dati nell'apprendimento per imitazione e promuovere i progressi nella robotica e nella visione artificiale.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

Il paper presenta un innovativo framework "solver-in-the-loop" che combina un generatore 3D pre-addestrato con un rigoroso risolutore di equazioni integrali di contorno per ricostruire interfacce complesse nella tomografia a impedenza elettrica 3D, garantendo coerenza fisica rigorosa e alta efficienza dei dati attraverso vincoli fisici rigidi e regolarizzazione basata su prior generativi.

Haibo Liu, Junqing Chen, Guang Lin2026-03-10🔢 math

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Questo studio presenta un framework di deep learning basato su una GAN con penalità di varianza che trasforma immagini istologiche H&E in immagini IHC ad alta fedeltà per la valutazione precisa dell'HER2 nel cancro al seno, superando le prestazioni dei modelli esistenti e offrendo un'alternativa economica e scalabile alla diagnostica tradizionale.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Il paper presenta LINO UniPS, un approccio unificato per la fotometria stereoscopica universale che, grazie a token di registrazione luminosa, blocchi di attenzione intercalati e un'architettura basata su wavelet, garantisce il disaccoppiamento tra illuminazione e normali preservando i dettagli geometrici ad alta frequenza, ottenendo risultati all'avanguardia su benchmark pubblici e generalizzando meglio ai materiali reali.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Questo articolo propone un nuovo framework a cascata guidato da modelli visione-linguaggio che utilizza le loro caratteristiche come prompt espliciti per il Segment Anything Model al fine di migliorare la segmentazione e, sfruttando l'output come prior spaziale morbida, la classificazione degli oggetti mimetizzati in scenari a vocabolario aperto, superando così le limitazioni delle metodologie precedenti.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Il paper presenta LD-RPS, un metodo zero-shot e unificato per il ripristino delle immagini che utilizza il campionamento ricorsivo del posteriore su un modello di diffusione latente pre-addestrato, integrato con un modello di comprensione multimodale per fornire priori semantici e un modulo leggero per l'allineamento, superando così i limiti dei metodi esistenti senza richiedere dataset di addestramento.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

Il paper dimostra che adottare una dieta visiva ispirata allo sviluppo umano, che guida l'apprendimento dei modelli AI attraverso un curriculum progressivo di acuità, sensibilità al contrasto e colore, permette di ottenere sistemi di visione artificiale più robusti, resilienti e basati sulla forma, colmando il divario tra intelligenza artificiale e percezione umana.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Il paper propone MCULoRA, un nuovo framework basato su un adattamento a basso rango decoupled e dinamico che risolve i conflitti di gradiente nell'addestramento di modelli per il riconoscimento delle emozioni con modalità incomplete, ottenendo prestazioni superiori rispetto agli approcci esistenti.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

Il paper presenta Mamba Snake, un nuovo framework di deep snake basato sulla modellazione degli spazi di stato che risolve le sfide dell'segmentazione medica unificata modellando le relazioni topologiche inter-organo e affinando i contorni microscopici, ottenendo prestazioni superiori rispetto agli stati dell'arte su cinque dataset clinici.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

Il paper introduce π3\pi^3, una rete neurale feed-forward permutazionalmente equivariante che supera i limiti dei metodi basati su una vista di riferimento fissa, ottenendo prestazioni all'avanguardia nella ricostruzione geometrica visiva, nella stima della posa della camera e nella profondità senza bisogno di frame di riferimento.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Questo studio propone un framework di deep learning basato su Vision Transformer (ViT) che, utilizzando immagini Sentinel-2 e Formosat-5 e un approccio di apprendimento semi-supervisionato per espandere le annotazioni manuali, migliora la segmentazione delle aree colpite da disastri naturali, ottimizzando così il prodotto EVAP dell'Agenzia Spaziale Taiwanese (TASA).

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs