Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Questo studio valuta l'efficacia di metodi di deep learning avanzati, inclusi transformer e modelli fondazionali, applicati all'imaging ultra-grandangolare per la diagnosi della retinopatia diabetica e dell'edema maculare diabetico, dimostrando prestazioni superiori attraverso l'analisi sia spaziale che in frequenza e tecniche di fusione delle caratteristiche.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

Il paper presenta DynamicVGGT, un framework unificato feed-forward che estende la percezione 3D statica alla ricostruzione 4D dinamica per la guida autonoma, integrando un'attenzione temporale consapevole del movimento e un head di splatting gaussiano per modellare con precisione il moto dei punti e le variazioni temporali complesse.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Questo lavoro propone un metodo senza apprendimento per il tracciamento della posa 6D di oggetti che fonde il flusso ottico basato su eventi per la propagazione della posa con una correzione locale basata su template, dimostrando prestazioni superiori rispetto agli algoritmi esistenti nel tracciamento di oggetti in rapido movimento grazie all'alta risoluzione temporale delle telecamere a eventi.

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Il paper propone OSCAR, un metodo basato su rappresentazioni implicite neurali che ricostruisce la geometria 3D completa della colonna vertebrale da immagini ecografiche parziali sfruttando i parametri acustici per inferire le regioni occluse senza bisogno di etichette anatomiche durante l'inferenza.

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Questo studio presenta un'ampia analisi comparativa tra umani e intelligenza artificiale nel riconoscimento di azioni egocentriche, rivelando che gli esseri umani dipendono fortemente da cue semantici critici e sparsi, mentre i modelli AI mostrano una degradazione più graduale basata su feature contestuali e una minore sensibilità alle perturbazioni temporali.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Questo lavoro introduce un framework generale per valutare la qualità delle mappe di calore nel Multiple Instance Learning per l'istopatologia, dimostrando che metodi come LRP e Integrated Gradients superano le mappe basate sull'attenzione e abilitano validazioni biologiche affidabili e nuove intuizioni scientifiche.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Local-Global Prompt Learning via Sparse Optimal Transport

Il paper propone SOT-GLP, un metodo di apprendimento dei prompt che combina allineamento globale e locale tramite trasporto ottimo sparsa per partizionare efficientemente le regioni visive tra i prompt specifici per classe, ottenendo così prestazioni superiori sia nella classificazione few-shot che nella rilevazione di dati fuori distribuzione.

Deniz Kizaro\u{g}lu, Ülku Tuncer Küçüktas, Emre Çakmakyurdu, Alptekin Temizel2026-03-10💻 cs

Δ\DeltaVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Il paper presenta Δ\DeltaVLA, un framework innovativo per i modelli Vision-Language-Action che migliora la manipolazione robotica modellando le variazioni della conoscenza del mondo rispetto a un prior esplicito, anziché prevedere stati futuri assoluti, ottenendo così prestazioni all'avanguardia e maggiore efficienza.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs