DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights

Die Arbeit stellt DRBD-Mamba vor, ein effizientes 3D-Segmentierungsmodell für Hirntumore, das durch die Nutzung von Raumfüllkurven und einem gated fusion module die Rechenkosten senkt und gleichzeitig die Robustheit sowie die Genauigkeit bei der Segmentierung verschiedener Tumorregionen im Vergleich zu bestehenden State-of-the-Art-Methoden signifikant verbessert.

Danish Ali, Ajmal Mian, Naveed Akhtar + 1 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Die Arbeit stellt das Framework SceneCOT und den dazugehörigen Datensatz SceneCOT-185K vor, um durch eine neuartige, auf multimodalen Expertenmodulen basierende Chain-of-Thought-Methode erstmals eine fundierte, schrittweise menschliche Schlussfolgerung in 3D-Szenen zu ermöglichen und so die Leistung von 3D-LLMs bei der Beantwortung von Fragen mit räumlichem Bezug erheblich zu verbessern.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

Das Paper stellt FLoC vor, ein trainingsfreies und modellunabhängiges Framework zur effizienten Kompression visueller Tokens in langen Videos mittels der Facility-Location-Funktion, das durch die Auswahl einer kompakten, repräsentativen Teilmenge die Verarbeitungsleistung von Large Multimodal Models bei gleichzeitiger Beibehaltung der Genauigkeit erheblich verbessert.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

Das Paper stellt MotionStream vor, ein Echtzeit-Video-Generierungsmodell, das durch die Destillation eines bidirektionalen Lehrmodells in einen kausalen Schüler und den Einsatz von gleitenden Fenster-Aufmerksamkeitsmechanismen interaktive, qualitativ hochwertige Videostreams mit subsekundärer Latenz und unbegrenzter Länge auf einer einzigen GPU ermöglicht.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

Die vorgestellte Arbeit stellt SASG-DA vor, eine neuartige, auf Diffusionsmodellen basierende Daten-Augmentationsmethode für die myoelektrische Gestenerkennung, die durch semantische Leitlinien und eine spärlichkeitsbewusste Stichprobenziehung sowohl die Glaubwürdigkeit als auch die gezielte Vielfalt synthetischer sEMG-Daten sicherstellt, um Überanpassung zu mindern und die Generalisierungsfähigkeit zu verbessern.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

Die Autoren stellen das CCSD-Framework vor, ein neuartiges Cross-Modal Compositional Self-Distillation-Verfahren mit einer geteilten-spezifischen Encoder-Decoder-Architektur und zwei Selbst-Distillation-Strategien, das die Segmentierung von Hirntumoren in Multi-Modal-MRT-Daten auch bei fehlenden Modalitäten robust und präzise ermöglicht.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Die Arbeit stellt FlashCache vor, einen frequenzdomänengesteuerten Ansatz zur Komprimierung des Multimodal-KV-Caches, der durch die Identifizierung und Erhaltung von Ausreißer-KV-Paaren sowie eine dynamische Budgetzuweisung die Inferenzgeschwindigkeit und Speichereffizienz von Multimodal Large Language Models signifikant verbessert, ohne die Leistung zu beeinträchtigen.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

Das Paper stellt ObAct vor, ein Framework für aktives visuelles Imitationslernen, bei dem ein Roboterarm als Beobachter eine 3D-Gaussian-Splatting-Repräsentation erstellt und eine optimale Kameraposition einnimmt, um die Sichtbarkeit für den ausführenden Arm zu maximieren und so die Robustheit der Politik gegenüber Verdeckungen signifikant zu verbessern.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

Die Arbeit stellt PowerCLIP vor, ein neuartiges kontrastives Vor-Trainingsframework, das durch effiziente nicht-lineare Aggregatoren (NLAs) eine exponentiell komplexe Powerset-Ausrichtung von Bildregionen und Textphrasen auf lineare Komplexität reduziert, um die Zusammensetzung von Semantik zu verbessern und damit den State-of-the-Art bei Zero-Shot-Aufgaben zu übertreffen.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Die vorgestellte Arbeit führt einen Fairness-bewussten Fine-Tuning-Ansatz für medizinische Vision-Language-Modelle zur Glaukomdiagnose ein, der durch eine differentiable MaxAccGap-Verlustfunktion und effiziente Low-Rank Adaptation (LoRA) die diagnostischen Genauigkeitsunterschiede zwischen demografischen Gruppen um 69 % reduziert, ohne dabei die Gesamtgenauigkeit signifikant zu beeinträchtigen.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs