Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Diese Studie nutzt Deep-Learning-Modelle und Ultra-Weitfeld-Bildgebung auf dem UWF4DR-Datensatz, um die Diagnose von diabetischer Retinopathie und makulärem Ödem zu verbessern, wobei insbesondere Vision-Transformer, Frequenzbereichsdarstellungen und Feature-Level-Fusion eine robuste und erklärbare Leistung zeigen.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

Die Arbeit stellt SiMO vor, ein kollaboratives Wahrnehmungssystem, das durch den neuartigen LAMMA-Fusionsmechanismus und eine spezielle Trainingsstrategie auch bei Ausfall einzelner Sensoren (z. B. LiDAR) eine robuste Leistung aufrechterhält, indem es semantische Inkonsistenzen vermeidet und die Unabhängigkeit der einzelnen Modalitäten gewährleistet.

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

Das Paper stellt DynamicVGGT vor, ein einheitliches Feed-Forward-Framework, das durch die Einführung eines motion-bewussten zeitlichen Aufmerksamkeitsmoduls und eines dynamischen 3D-Gaussian-Splatting-Kopfs die rekonstruktionsgenauigkeit für 4D-Szenen im autonomen Fahren durch die gemeinsame Vorhersage von aktuellen und zukünftigen Punktkarten signifikant verbessert.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Diese Arbeit stellt eine lernfreie Methode zur 6D-Objektpose-Verfolgung vor, die die hohe zeitliche Auflösung von Event-Kameras nutzt, um durch eine Kombination aus ereignisbasiertem optischem Fluss und einer template-basierten Korrektur auch bei schnellen Bewegungen präzise Ergebnisse zu erzielen, wo herkömmliche RGB-D-Systeme oder tiefe neuronale Netze an ihre Grenzen stoßen.

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Das Paper stellt OSCAR vor, eine neuartige Methode zur akustischen neuralen impliziten Darstellung, die die 3D-Rekonstruktion von Wirbelsäulenstrukturen aus unvollständigen Ultraschalldaten durch eine label-freie, auf der Bilderscheinung basierende Formvollendung verbessert und dabei die Genauigkeit gegenüber dem aktuellen Stand der Technik um 80 % steigert.

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Diese Arbeit stellt ein neues Fine-Tuning-Framework vor, das die Robustheit von Vision Transformern gegenüber Verteilungsverschiebungen verbessert, indem es die Modellentscheidungen durch automatisch generierte, konzeptbasierte Masken auf semantisch relevante Objektmerkmale lenkt und so den Fokus von irreführenden Hintergrundkorrelationen abwendet.

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Diese Studie vergleicht die Leistung von Menschen und KI-Modellen bei der egozentrischen Aktionserkennung unter verschiedenen räumlichen und zeitlichen Manipulationen und zeigt, dass Menschen stark auf semantisch kritische, spärliche Hinweise wie Hand-Objekt-Interaktionen angewiesen sind, während KI-Modelle eher kontextuelle Merkmale nutzen und eine andere Robustheit gegenüber zeitlichen Störungen aufweisen.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Diese Arbeit stellt ein allgemeines Rahmenwerk zur Bewertung von Heatmaps bei Multiple-Instance-Learning-Modellen in der Histopathologie vor und zeigt durch ein groß angelegtes Benchmarking, dass Perturbation-, LRP- und IG-Methoden Attention-basierten Ansätzen überlegen sind, um zuverlässigere Validierungen und biologische Erkenntnisse zu ermöglichen.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Local-Global Prompt Learning via Sparse Optimal Transport

Die Arbeit stellt SOT-GLP vor, eine Methode zur Few-Shot-Anpassung von Vision-Language-Modellen, die durch die Nutzung von Sparse Optimal Transport eine redundanzfreie Aufteilung lokaler Bildregionen auf klassenspezifische Prompts ermöglicht und dabei sowohl die Klassifizierungsgenauigkeit als auch die Out-of-Distribution-Robustheit verbessert.

Deniz Kizaro\u{g}lu, Ülku Tuncer Küçüktas, Emre Çakmakyurdu, Alptekin Temizel2026-03-10💻 cs

Δ\DeltaVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Die Arbeit stellt Δ\DeltaVLA vor, ein prior-geführtes Vision-Language-Action-Modell, das durch die Extraktion eines aktuellen Weltwissens-Priors, die Quantisierung latenter Weltveränderungen und eine bedingte Aufmerksamkeitsmechanik die Robotersteuerung effizienter und leistungsfähiger macht, indem es sich auf die Modellierung von Veränderungen statt auf die Vorhersage absoluter zukünftiger Zustände konzentriert.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs