Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Il paper presenta LINO UniPS, un approccio unificato per la fotometria stereoscopica universale che, grazie a token di registrazione luminosa, blocchi di attenzione intercalati e un'architettura basata su wavelet, garantisce il disaccoppiamento tra illuminazione e normali preservando i dettagli geometrici ad alta frequenza, ottenendo risultati all'avanguardia su benchmark pubblici e generalizzando meglio ai materiali reali.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Questo articolo propone un nuovo framework a cascata guidato da modelli visione-linguaggio che utilizza le loro caratteristiche come prompt espliciti per il Segment Anything Model al fine di migliorare la segmentazione e, sfruttando l'output come prior spaziale morbida, la classificazione degli oggetti mimetizzati in scenari a vocabolario aperto, superando così le limitazioni delle metodologie precedenti.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Il paper presenta SUBARU, un approccio pratico che riduce il consumo energetico degli auricolari intelligenti del 3,31 volte sfruttando la sottocampionatura e la bassa risoluzione dei convertitori analogico-digitali, pur garantendo un'efficace enhancement del parlato in tempo reale tramite un innovativo metodo di upsampling.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Il paper presenta LD-RPS, un metodo zero-shot e unificato per il ripristino delle immagini che utilizza il campionamento ricorsivo del posteriore su un modello di diffusione latente pre-addestrato, integrato con un modello di comprensione multimodale per fornire priori semantici e un modulo leggero per l'allineamento, superando così i limiti dei metodi esistenti senza richiedere dataset di addestramento.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Il paper propone MCULoRA, un nuovo framework basato su un adattamento a basso rango decoupled e dinamico che risolve i conflitti di gradiente nell'addestramento di modelli per il riconoscimento delle emozioni con modalità incomplete, ottenendo prestazioni superiori rispetto agli approcci esistenti.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

Il paper presenta Mamba Snake, un nuovo framework di deep snake basato sulla modellazione degli spazi di stato che risolve le sfide dell'segmentazione medica unificata modellando le relazioni topologiche inter-organo e affinando i contorni microscopici, ottenendo prestazioni superiori rispetto agli stati dell'arte su cinque dataset clinici.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

Il paper introduce π3\pi^3, una rete neurale feed-forward permutazionalmente equivariante che supera i limiti dei metodi basati su una vista di riferimento fissa, ottenendo prestazioni all'avanguardia nella ricostruzione geometrica visiva, nella stima della posa della camera e nella profondità senza bisogno di frame di riferimento.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Questo studio propone un framework di deep learning basato su Vision Transformer (ViT) che, utilizzando immagini Sentinel-2 e Formosat-5 e un approccio di apprendimento semi-supervisionato per espandere le annotazioni manuali, migliora la segmentazione delle aree colpite da disastri naturali, ottimizzando così il prodotto EVAP dell'Agenzia Spaziale Taiwanese (TASA).

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

BrownoutServe: SLO-Aware Inference Serving under Bursty Workloads for MoE-based LLMs

Il documento presenta BrownoutServe, un nuovo framework di serving per modelli LLM basati su architetture Mixture-of-Experts che, attraverso l'introduzione di "united experts" e un meccanismo di brownout dinamico, ottimizza l'efficienza dell'inferenza e garantisce il rispetto degli obiettivi di servizio (SLO) durante picchi di traffico, riducendo significativamente le violazioni degli SLO e migliorando il throughput rispetto a soluzioni esistenti come vLLM.

Jianmin Hu, Minxian Xu, Kejiang Ye + 1 more2026-03-10💻 cs

They See Me Rolling: High-Speed Event Vision-Based Tactile Roller Sensor for Large Surface Inspection

Il paper presenta un innovativo sensore tattile basato su visione a roller che integra una camera neuromorfica per l'ispezione ad alta velocità e risoluzione di grandi superfici industriali, ottenendo una ricostruzione 3D precisa fino a 0,5 m/s e superando significativamente le prestazioni dei metodi continui precedenti.

Akram Khairi, Hussain Sajwani, Abdallah Mohammad Alkilany, Laith AbuAssi, Mohamad Halwani, Islam Mohamed Zaid, Ahmed Awadalla, Dewald Swart, Abdulla Ayyad, Yahya Zweiri2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Questo studio presenta TransUNet-GradCAM, un modello ibrido Transformer-U-Net che combina meccanismi di attenzione globale e locali per ottenere un'accurata segmentazione e visualizzazione spiegabile delle ulcere diabetiche del piede, dimostrando elevate prestazioni e robusta trasferibilità su dataset clinici esterni senza necessità di riaddestramento.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

Il paper presenta S²Q-VDiT, un framework di quantizzazione post-addestramento per trasformatori di diffusione video che combina la selezione di dati salienti basata sull'elmo Hessiano e la distillazione di token sparsi guidata dall'attenzione per ottenere prestazioni senza perdite, una compressione del modello di 3,9 volte e un'accelerazione dell'inferenza di 1,3 volte.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs