Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

Die Arbeit stellt DyMo vor, ein neuartiges Framework zur Inferenzzeit-dynamischen Modalauswahl, das das Dilemma zwischen dem Verwerfen unvollständiger multimodaler Daten und dem Einfügen von Rauschen durch Imputation löst, indem es eine theoretisch fundierte, verlustbasierte Proxy-Metrik nutzt, um zuverlässig rekonstruierte Modalitäten adaptiv zu identifizieren und zu integrieren.

Siyi Du, Xinzhe Luo, Declan P. O'Regan + 1 more2026-02-24💻 cs

Towards Segmenting the Invisible: An End-to-End Registration and Segmentation Framework for Weakly Supervised Tumour Analysis

Diese Studie stellt ein hybrides Registrierungs- und Segmentierungsframework zur schwach überwachten Tumoranalyse vor, das jedoch zeigt, dass die Übertragung von Labels zwischen Modalitäten zwar für sichtbare Strukturen funktioniert, aber bei der Segmentierung von in der Zielmodalität (CT) unsichtbaren Tumoren aufgrund fehlender diskriminierender Merkmale an ihre Grenzen stößt.

Budhaditya Mukhopadhyay, Chirag Mandal, Pavan Tummala + 3 more2026-02-24⚡ eess

Zero-shot Multi-Contrast Brain MRI Registration by Intensity Randomizing T1-weighted MRI (LUMIR25)

Diese Arbeit stellt das LUMIR25-Verfahren vor, das durch den Einsatz von Registrierungsspezifischen Induktionsverzerrungen, MIND-basierten Verlustfunktionen, Intensitätsrandomisierung und instanzspezifischer Optimierung eine führende Null-Shot-Registerung von Gehirn-MRT-Bildern über verschiedene Kontraste hinweg ermöglicht, ohne auf explizite Bildsynthese angewiesen zu sein.

Hengjie Liu, Yimeng Dou, Di Xu + 3 more2026-02-24⚡ eess

Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Die Arbeit stellt ViewRope vor, eine geometriebewusste rotierende Positionseingebung, die Kamerablickrichtungen direkt in Video-Transformer integriert, um die räumliche Konsistenz und Langzeitstabilität von Weltmodellen bei expliziter Kamerasteuerung zu verbessern und gleichzeitig die Rechenkosten durch eine neue geometriebewusste, frame-sparse Aufmerksamkeitsmechanik zu senken.

Chendong Xiang, Jiajun Liu, Jintao Zhang + 7 more2026-02-24💻 cs

Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation

Die Arbeit stellt Time2General vor, ein Framework für die domänengeneralisierte Video-Semantiksegmentierung, das mithilfe eines räumlich-zeitlichen Speicher-Decoders und eines maskierten zeitlichen Konsistenzverlusts stabile Vorhersagen über verschiedene Domänen und Abtastraten hinweg ermöglicht, ohne auf explizite Korrespondenzpropagation angewiesen zu sein.

Siyu Chen, Ting Han, Haoling Huang + 5 more2026-02-24💻 cs

Handling Supervision Scarcity in Chest X-ray Classification: Long-Tailed and Zero-Shot Learning

Dieser Beitrag stellt Lösungen für die CXR-LT 2026-Herausforderung vor, die durch eine imbalance-aware Multi-Label-Strategie für langschwanzige Verteilungen und einen überwachungslosen Ansatz für Zero-Shot-Erkennung seltener Befunde in der Thorax-Röntgenbildklassifizierung die Überwachungsdatenknappheit adressiert und dabei den ersten Platz in der öffentlichen Rangliste erreicht.

Ha-Hieu Pham, Hai-Dang Nguyen, Thanh-Huy Nguyen + 4 more2026-02-24💻 cs

A Novel Public Dataset for Strawberry (Fragaria x ananassa) Ripeness Detection and Comparative Evaluation of YOLO-Based Models

Diese Studie stellt einen neuartigen, öffentlich zugänglichen Datensatz zur Erkennung der Reife von Erdbeben vor und bewertet vergleichend YOLO-basierte Modelle, wobei YOLOv8s die beste Gesamtperformance (mAP@50: 86,09 %) erzielt und somit eine wichtige Grundlage für intelligente landwirtschaftliche Anwendungen schafft.

Mustafa Yurdakul, Zeynep Sena Bastug, Ali Emre Gok + 1 more2026-02-24💻 cs

DesignAsCode: Bridging Structural Editability and Visual Fidelity in Graphic Design Generation

Die Arbeit stellt DesignAsCode vor, ein neuartiges Framework, das die Lücke zwischen visueller Qualität und struktureller Bearbeitbarkeit in der Grafikgenerierung schließt, indem es Designs als HTML/CSS-Code durch eine Plan-Implement-Reflect-Pipeline synthetisiert und so überlegene Ergebnisse sowie erweiterte Funktionen wie Layoutanpassung und Animationen ermöglicht.

Ziyuan Liu, Shizhao Sun, Danqing Huang + 5 more2026-02-24🤖 cs.AI