Interpretable Medical Image Classification using Prototype Learning and Privileged Information

Die Arbeit stellt Proto-Caps vor, ein interpretierbares Deep-Learning-Modell, das Kapselnetzwerke, Prototypenlernen und privilegierte Informationen kombiniert, um auf dem LIDC-IDRI-Datensatz sowohl die Vorhersagegenauigkeit für Lungenknoten als auch die visuelle Nachvollziehbarkeit der Diagnose im Vergleich zu bestehenden Methoden signifikant zu verbessern.

Luisa Gallee, Meinrad Beer, Michael Goetz2026-02-25🤖 cs.AI

UWF-RI2FA: Generating Multi-frame Ultrawide-field Fluorescein Angiography from Ultrawide-field Retinal Imaging Improves Diabetic Retinopathy Stratification

Die Studie stellt ein auf Generativer Künstlicher Intelligenz basiertes Verfahren vor, das aus nicht-invasiven ultraweitfeldigen Retinabildern realistische fluoresceinangiografische Bilder generiert und dadurch die Klassifizierung der diabetischen Retinopathie signifikant verbessert, ohne dass ein intravenöser Farbstoff injiziert werden muss.

Ruoyu Chen, Kezheng Xu, Kangyan Zheng + 4 more2026-02-25⚡ eess

RegTrack: Simplicity Beneath Complexity in Robust Multi-Modal 3D Multi-Object Tracking

RegTrack ist ein effizienter und robuster 3D-Multi-Object-Tracking-Ansatz, der durch einen einheitlichen Tri-Cue-Encoder, der von der Yang-Mills-Eichtheorie inspiriert ist, komplexe Assoziationsmetriken und klassenspezifische Priors überflüssig macht und dabei nur 2,6 Millionen Parameter sowie reine Punktwolken-Eingaben für eine überlegene Leistung auf KITTI und nuScenes nutzt.

Lipeng Gu, Xuefeng Yan, Song Wang + 1 more2026-02-25💻 cs

Two Models for Surface Segmentation using the Total Variation of the Normal Vector

Die Autoren stellen einen variationsbasierten Ansatz zur Segmentierung von Dreiecksnetzen vor, der zwei Total-Variations-Regularisierer vergleicht und durch eine Split-Bregman-Methode sowie einen effizienten Newton-Algorithmus auf der Mannigfaltigkeit gelöst wird, wobei der zweite Regularisierer trotz höherer Kosten robustere Ergebnisse liefert.

Manuel Weiß, Lukas Baumgärtner, Laura Weigl + 3 more2026-02-25💻 cs

Revisiting the Generalization Problem of Low-level Vision Models Through the Lens of Image Deraining

Diese Arbeit untersucht das Generalisierungsproblem von Low-Level-Vision-Modellen am Beispiel der Bildentwässerung und zeigt, dass es auf „Shortcut Learning" durch ein Ungleichgewicht zwischen Bildinhalt und Degradation zurückzuführen ist, woraufhin sie Strategien zur Komplexitätsbalance und zur Nutzung generativer Priors zur Verbesserung der Robustheit vorschlägt.

Jinfan Hu, Zhiyuan You, Jinjin Gu + 3 more2026-02-25💻 cs

An Efficient LiDAR-Camera Fusion Network for Multi-Class 3D Dynamic Object Detection and Trajectory Prediction

Die Autoren stellen ein effizientes Multi-Modalitäts-Framework vor, das LiDAR- und Kameradaten mittels der Modelle UniMT und RTMCT kombiniert, um in Echtzeit dynamische Objekte wie Fußgänger und Fahrzeuge zu detektieren und deren Trajektorien vorherzusagen, was sich durch hohe Genauigkeit und eine Echtzeit-Leistung von 13,9 FPS auf ressourcenbeschränkten Robotern auszeichnet.

Yushen He, Lei Zhao, Tianchen Deng + 2 more2026-02-25🤖 cs.AI

HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning

Die Arbeit stellt HoloLLM vor, ein multimodales Sprachmodell, das durch die Integration ungewöhnlicher Sensormodalitäten wie LiDAR, Infrarot, mmWave-Radar und WiFi sowie durch einen neuartigen Universal Modality-Injection Projector (UMIP) und eine kollaborative Datenerstellung robustere menschenzentrierte Wahrnehmung und Schlussfolgerung in smarten Umgebungen ermöglicht.

Chuhao Zhou, Jianfei Yang2026-02-25💬 cs.CL

Peering into the Unknown: Active View Selection with Neural Uncertainty Maps for 3D Reconstruction

Die vorgestellte Arbeit führt UPNet ein, ein neuronales Netzwerk zur Vorhersage von Unsicherheitskarten aus einzelnen Bildern, das durch die Aggregation dieser Karten eine effiziente und generalisierbare aktive View-Selection für die 3D-Rekonstruktion ermöglicht, welche die Rechenkosten drastisch senkt und dennoch eine hohe Rekonstruktionsqualität erreicht.

Zhengquan Zhang, Feng Xu, Mengmi Zhang2026-02-25🤖 cs.AI