JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Die Arbeit stellt JavisDiT++ vor, ein effizientes Open-Source-Framework für die synchronisierte Audio-Video-Generierung, das durch eine modalspezifische Mixture-of-Experts-Architektur, eine temporal ausgerichtete RoPE-Strategie und eine direkte Präferenzoptimierung (AV-DPO) den Stand der Technik erreicht und dabei mit nur rund einer Million Trainingsdaten auskommt.

Kai Liu, Yanhao Zheng, Kai Wang + 7 more2026-02-24💻 cs

EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease

Das Paper stellt EMAD vor, ein evidenzbasiertes multimodales Vision-Language-Framework für die Alzheimer-Diagnose, das mittels einer hierarchischen Verankerungsmethode, einer Wissensdistillationstechnik (GTX-Distill) und einer regelbasierten Verstärkungslern-Feinabstimmung (Executable-Rule GRPO) transparente, anatomisch fundierte Diagnoseberichte mit nachweisbarer klinischer Konsistenz generiert.

Qiuhui Chen, Xuancheng Yao, Zhenglei Zhou + 2 more2026-02-24💻 cs

PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration

Die Arbeit stellt PositionOCR vor, einen parameter-effizienten hybriden Ansatz, der die Positionspräzision spezialisierter Text-Spotting-Modelle mit dem semantischen Verständnis von Large Language Models verbindet, um die Leistungsfähigkeit von Multi-Modal-Modellen bei Aufgaben wie Text-Verankerung und Text-Erkennung signifikant zu verbessern.

Chen Duan, Zhentao Guo, Pei Fu + 3 more2026-02-24💻 cs

Questions beyond Pixels: Integrating Commonsense Knowledge in Visual Question Generation for Remote Sensing

Die Autoren stellen das KRSVQG-Modell vor, das durch die Integration von externen Wissensquellen und Bildunterschriften automatisch generierte Fragen für Fernerkundungsbilder erweitert, um über rein pixelbasierte Beschreibungen hinauszugehen und menschenähnliches Common Sense-Wissen in die visuelle Fragegenerierung einzubringen.

Siran Li, Li Mi, Javiera Castillo-Navarro + 1 more2026-02-24💻 cs

Controlled Face Manipulation and Synthesis for Data Augmentation

Die Autoren stellen eine Methode zur kontrollierten Manipulation und Synthese von Gesichtern im semantischen latenten Raum vor, die durch entanglement-reduzierende Techniken wie abhängige Konditionierung und orthogonale Projektion hochwertige Daten für das Training von Gesichtsausdruckserkennungsmodellen generiert und so deren Genauigkeit sowie Disentanglement signifikant verbessert.

Joris Kirchner, Amogh Gudi, Marian Bittner + 1 more2026-02-24🤖 cs.LG