Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Die Arbeit stellt Kiwi-Edit vor, ein neues State-of-the-Art-System für die videobasierte Bearbeitung, das durch eine skalierbare Datengenerierungspipeline, den daraus resultierenden großen Datensatz RefVIE und eine einheitliche Architektur mit lernbaren Abfragen die präzise Steuerung von Video-Edits mittels natürlicher Sprache und Referenzbildern erheblich verbessert.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Die Autoren stellen ein morphologieentkoppeltes Framework vor, das durch den Einsatz von Zero-Initialized Gated Cross-Task Attention und einer gemischten Überwachungsstrategie die gemeinsame Detektion von Lakunen und erweiterten perivaskulären Räumen bei zerebralen Kleingefäßerkrankungen verbessert und dabei auf dem VALDO-2021-Datensatz sowie einer externen Kohorte state-of-the-art-Ergebnisse erzielt.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

Das Paper stellt „Gaussian Wardrobe" vor, ein neuartiges Framework, das mittels einer compositionalen 3D-Gaussian-Repräsentation aus Multi-View-Videos photorealistische Avatare mit entkoppelten, formunabhängigen Kleidungsstücken erzeugt, um so eine flexible virtuelle Anprobe und Wiederverwendung von Kleidung auf verschiedenen Personen zu ermöglichen.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Die vorgestellte Arbeit führt das „Dual Tuning"-Framework ein, um durch den systematischen Vergleich von Chain-of-Thought- und Direkt-Antwort-Training eine „Denkgrenze" zu definieren, die bestimmt, für welche multimodalen Aufgaben reasoning-basierte Ansätze tatsächlich vorteilhaft sind und somit eine ressourcenschonende, adaptive Trainingsstrategie ermöglicht.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Diese Arbeit stellt ein multimodales Deep-Learning-System vor, das Video-, Pose- und Objektdaten mittels 3D-CNNs, Graph-CNNs und Cross-Attention fusioniert, um Alltagsaktivitäten älterer Menschen in Ambient-Assisted-Living-Umgebungen robust zu erkennen und so deren Sicherheit und Selbstständigkeit zu fördern.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Diese Studie analysiert verschiedene Fusions- und Gruppierungsstrategien in Deep-Learning-Modellen zur Klassifizierung lokaler Klimazonen mittels multimodaler Fernerkundungsdaten und zeigt, dass eine hybride Fusionsmethode in Kombination mit Bandgruppierung und Label-Merging die höchste Genauigkeit von 76,6 % erzielt und insbesondere die Vorhersage für unterrepräsentierte Klassen verbessert.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Die Arbeit stellt „Dual-LoRA Controllable Diffusion" vor, ein einheitliches Diffusionsframework, das mithilfe von Multi-Class-Nukleus-Schwerpunkten als räumlichen Priors und zwei aufgaben spezifischen LoRA-Adaptern sowohl die lokale Strukturergänzung als auch die globale Gewebesynthese in der Histopathologie innerhalb eines einzigen Modells verbessert und dabei die strukturelle Treue sowie den Realismus gegenüber bestehenden Methoden signifikant steigert.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs