DL3^3M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

Die Studie stellt DL3^3M vor, ein Framework, das die hochpräzise Bildklassifizierung durch ein hybrides MobileCoAtNet-Modell mit der Textgenerierung von Large Language Models verbindet, um klinische Erklärungen zu erstellen, und zeigt dabei, dass trotz verbesserter Erklärungsqualität die aktuellen LLMs aufgrund fehlender Stabilität noch nicht für hochriskante medizinische Entscheidungen geeignet sind.

Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo + 4 more2026-02-24🤖 cs.AI

Object-WIPER : Training-Free Object and Associated Effect Removal in Videos

Die Arbeit stellt Object-WIPER vor, ein trainingsfreies Framework, das dynamische Objekte und deren visuelle Effekte aus Videos entfernt und durch semantisch konsistente, zeitlich kohärente Inhalte ersetzt, indem es einen vortrainierten Text-zu-Video-Diffusions-Transformer nutzt und durch ein neues Evaluationsmaß sowie einen zugehörigen Benchmark validiert wird.

Saksham Singh Kushwaha, Sayan Nag, Yapeng Tian + 1 more2026-02-24💻 cs

Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding

Die Autoren stellen Emotion-LLaMAv2 und den MMEVerse-Benchmark vor, ein neues Framework mit einem End-to-End-Multiview-Encoder, einem Conv-Attention-Fusionsmodul und einem Curriculum-Instruction-Tuning, das auf einer neu annotierten Datensammlung von 130.000 Clips basiert, um die multimodale Emotionserkennung und -analyse zu verbessern.

Xiaojiang Peng, Jingyi Chen, Zebang Cheng + 11 more2026-02-24🤖 cs.AI

FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding

Die Arbeit stellt FineVAU vor, ein neues Benchmark für das feingranulare Verständnis von Videoanomalien, das den Mangel an menschenähnlichen Evaluierungsmetriken durch die Einführung des FVScore-Maßstabs und des FineW3-Datensatzes adressiert und dabei kritische Grenzen aktueller Large Vision-Language-Modelle bei der räumlichen und zeitlichen Erfassung von Anomalien aufdeckt.

João Pereira, Vasco Lopes, João Neves + 1 more2026-02-24💻 cs

RepSFNet : A Single Fusion Network with Structural Reparameterization for Crowd Counting

Die Arbeit stellt RepSFNet vor, eine leichte, auf struktureller Reparametrisierung basierende Single-Fusion-Architektur für das Crowd Counting, die durch den Einsatz eines RepLK-ViT-Rückgrats und einer effizienten Kontextmodellierung eine hohe Genauigkeit bei gleichzeitig reduzierter Latenz für Echtzeitanwendungen auf Edge-Geräten erreicht.

Mas Nurul Achmadiah, Chi-Chia Sun, Wen-Kai Kuo + 1 more2026-02-24💻 cs

Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

Die Arbeit stellt DyMo vor, ein neuartiges Framework zur Inferenzzeit-dynamischen Modalauswahl, das das Dilemma zwischen dem Verwerfen unvollständiger multimodaler Daten und dem Einfügen von Rauschen durch Imputation löst, indem es eine theoretisch fundierte, verlustbasierte Proxy-Metrik nutzt, um zuverlässig rekonstruierte Modalitäten adaptiv zu identifizieren und zu integrieren.

Siyi Du, Xinzhe Luo, Declan P. O'Regan + 1 more2026-02-24💻 cs

Towards Segmenting the Invisible: An End-to-End Registration and Segmentation Framework for Weakly Supervised Tumour Analysis

Diese Studie stellt ein hybrides Registrierungs- und Segmentierungsframework zur schwach überwachten Tumoranalyse vor, das jedoch zeigt, dass die Übertragung von Labels zwischen Modalitäten zwar für sichtbare Strukturen funktioniert, aber bei der Segmentierung von in der Zielmodalität (CT) unsichtbaren Tumoren aufgrund fehlender diskriminierender Merkmale an ihre Grenzen stößt.

Budhaditya Mukhopadhyay, Chirag Mandal, Pavan Tummala + 3 more2026-02-24⚡ eess

Zero-shot Multi-Contrast Brain MRI Registration by Intensity Randomizing T1-weighted MRI (LUMIR25)

Diese Arbeit stellt das LUMIR25-Verfahren vor, das durch den Einsatz von Registrierungsspezifischen Induktionsverzerrungen, MIND-basierten Verlustfunktionen, Intensitätsrandomisierung und instanzspezifischer Optimierung eine führende Null-Shot-Registerung von Gehirn-MRT-Bildern über verschiedene Kontraste hinweg ermöglicht, ohne auf explizite Bildsynthese angewiesen zu sein.

Hengjie Liu, Yimeng Dou, Di Xu + 3 more2026-02-24⚡ eess

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Die Arbeit stellt ViewRope vor, eine geometriebewusste rotierende Positionseingebung, die Kamerablickrichtungen direkt in Video-Transformer integriert, um die räumliche Konsistenz und Langzeitstabilität von Weltmodellen bei expliziter Kamerasteuerung zu verbessern und gleichzeitig die Rechenkosten durch eine neue geometriebewusste, frame-sparse Aufmerksamkeitsmechanik zu senken.

Chendong Xiang, Jiajun Liu, Jintao Zhang + 7 more2026-02-24💻 cs

Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation

Die Arbeit stellt Time2General vor, ein Framework für die domänengeneralisierte Video-Semantiksegmentierung, das mithilfe eines räumlich-zeitlichen Speicher-Decoders und eines maskierten zeitlichen Konsistenzverlusts stabile Vorhersagen über verschiedene Domänen und Abtastraten hinweg ermöglicht, ohne auf explizite Korrespondenzpropagation angewiesen zu sein.

Siyu Chen, Ting Han, Haoling Huang + 5 more2026-02-24💻 cs

Handling Supervision Scarcity in Chest X-ray Classification: Long-Tailed and Zero-Shot Learning

Dieser Beitrag stellt Lösungen für die CXR-LT 2026-Herausforderung vor, die durch eine imbalance-aware Multi-Label-Strategie für langschwanzige Verteilungen und einen überwachungslosen Ansatz für Zero-Shot-Erkennung seltener Befunde in der Thorax-Röntgenbildklassifizierung die Überwachungsdatenknappheit adressiert und dabei den ersten Platz in der öffentlichen Rangliste erreicht.

Ha-Hieu Pham, Hai-Dang Nguyen, Thanh-Huy Nguyen + 4 more2026-02-24💻 cs