Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos

Diese Arbeit stellt eine neuartige, ereigniszentrierte Strategie für die Vision-Language-Navigation vor, die mithilfe des multimodalen Wissensgraphen YE-KG und des Modells STE-VLN die langfristige Reasoning-Fähigkeit von Agenten in unbekannten Umgebungen durch die Integration von episodischem Gedächtnis aus realen Indoor-Videos verbessert.

Haoxuan Xu, Tianfu Li, Wenbo Chen + 4 more2026-03-02💻 cs

CC-VQA: Conflict- and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering

Die Arbeit stellt CC-VQA vor, eine trainingsfreie Methode für wissensbasiertes visuelles Fragenbeantworten, die durch visozentrische Konfliktanalyse und korrelationsgesteuerte Kodierung sowie Dekodierung Konflikte zwischen parametrischem Modellwissen und dynamisch abgerufenen Informationen effektiv löst und damit den aktuellen Stand der Technik auf mehreren Benchmarks verbessert.

Yuyang Hong, Jiaqi Gu, Yujin Lou + 7 more2026-03-02💻 cs

Clinically-aligned ischemic stroke segmentation and ASPECTS scoring on NCCT imaging using a slice-gated loss on foundation representations

Diese Arbeit stellt einen klinisch ausgerichteten Ansatz zur Ischämie-Segmentierung und ASPECTS-Bewertung auf NCCT-Bildern vor, der durch die Kombination eines eingefrorenen DINOv3-Backbones mit einem territorialen, gating-basierten Verlust (TAGL) die anatomische Konsistenz zwischen basalen Ganglien und supraganglionären Ebenen verbessert und damit die Leistung bestehender Modelle übertrifft.

Hiba Azeem, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images

Diese Arbeit schlägt eine volumetrische Segmentierungsstrategie vor, die durch einen strukturierten Zerlegungs- und Wiederzusammensetzungsmechanismus 2D-basierte DINOv3-Grundlagenrepräsentationen auf die 3D-Segmentierung von Hippocampus-Strukturen in neonatalen MRT-Bildern erweitert und dabei einen konstanten Speicherverbrauch bei anatomischer Konsistenz gewährleistet.

Annayah Usman, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

Die Arbeit stellt MIGM-Shortcut vor, eine Methode, die durch das Erlernen eines leichtgewichtigen Modells zur Regression der Geschwindigkeitsfelder der Feature-Entwicklung unter Einbeziehung von Abtasttoken die Effizienz von Masked Image Generation Models erheblich steigert und dabei bei Text-zu-Bild-Generierung eine mehr als vierfache Beschleunigung bei gleichbleibender Qualität ermöglicht.

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

Die Arbeit stellt SR3R vor, ein Feed-Forward-Framework, das die 3D-Super-Resolution durch die direkte Vorhersage hochauflösender 3D-Gaussian-Splatting-Repräsentationen aus wenigen low-resolution-Ansichten neu definiert und so eine robuste Generalisierung sowie eine überlegene Rekonstruktionsqualität im Vergleich zu bestehenden Methoden ermöglicht.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

Das Paper stellt SteerVAD vor, einen neuartigen, feinsten-tuning-freien Ansatz zur Videoanomalieerkennung, der durch die Identifizierung diskriminativer Aufmerksamkeitsköpfe und deren gezielte, anisotrope Skalierung mittels eines hierarchischen Meta-Controllers die latenten Repräsentationen gefrorener multimodaler LLMs korrigiert und so State-of-the-Art-Ergebnisse mit nur 1 % der Trainingsdaten erzielt.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs