OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness

Das Paper stellt OpenVO vor, ein neuartiges Framework für die visuelle Odometrie in offenen Umgebungen, das durch die explizite Kodierung zeitlicher Dynamiken und die Nutzung von 3D-Geometriepriors aus Fundamentalmodellen eine robuste Schätzung der Eigenbewegung aus monokularen Dashcam-Aufnahmen mit variierenden Beobachtungsraten und unkalibrierten Kameras ermöglicht und dabei den Stand der Technik deutlich übertrifft.

Phuc D. A. Nguyen, Anh N. Nhu, Ming C. Lin2026-02-24💻 cs

Artefact-Aware Fungal Detection in Dermatophytosis: A Real-Time Transformer-Based Approach for KOH Microscopy

Diese Studie stellt einen Echtzeit-Transformer-basierten Ansatz (RT-DETR) vor, der Artefakte in KOH-Mikroskopiebildern zuverlässig erkennt und Dermatophytosen mit 100 %iger Sensitivität und 98,8 %iger Genauigkeit diagnostiziert, wodurch eine automatisierte Screening-Lösung für die klinische Mykologie geschaffen wird.

Rana Gursoy, Abdurrahim Yilmaz, Baris Kizilyaprak + 5 more2026-02-24🤖 cs.AI

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Die Arbeit stellt JavisDiT++ vor, ein effizientes Open-Source-Framework für die synchronisierte Audio-Video-Generierung, das durch eine modalspezifische Mixture-of-Experts-Architektur, eine temporal ausgerichtete RoPE-Strategie und eine direkte Präferenzoptimierung (AV-DPO) den Stand der Technik erreicht und dabei mit nur rund einer Million Trainingsdaten auskommt.

Kai Liu, Yanhao Zheng, Kai Wang + 7 more2026-02-24💻 cs

EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease

Das Paper stellt EMAD vor, ein evidenzbasiertes multimodales Vision-Language-Framework für die Alzheimer-Diagnose, das mittels einer hierarchischen Verankerungsmethode, einer Wissensdistillationstechnik (GTX-Distill) und einer regelbasierten Verstärkungslern-Feinabstimmung (Executable-Rule GRPO) transparente, anatomisch fundierte Diagnoseberichte mit nachweisbarer klinischer Konsistenz generiert.

Qiuhui Chen, Xuancheng Yao, Zhenglei Zhou + 2 more2026-02-24💻 cs

PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration

Die Arbeit stellt PositionOCR vor, einen parameter-effizienten hybriden Ansatz, der die Positionspräzision spezialisierter Text-Spotting-Modelle mit dem semantischen Verständnis von Large Language Models verbindet, um die Leistungsfähigkeit von Multi-Modal-Modellen bei Aufgaben wie Text-Verankerung und Text-Erkennung signifikant zu verbessern.

Chen Duan, Zhentao Guo, Pei Fu + 3 more2026-02-24💻 cs

Questions beyond Pixels: Integrating Commonsense Knowledge in Visual Question Generation for Remote Sensing

Die Autoren stellen das KRSVQG-Modell vor, das durch die Integration von externen Wissensquellen und Bildunterschriften automatisch generierte Fragen für Fernerkundungsbilder erweitert, um über rein pixelbasierte Beschreibungen hinauszugehen und menschenähnliches Common Sense-Wissen in die visuelle Fragegenerierung einzubringen.

Siran Li, Li Mi, Javiera Castillo-Navarro + 1 more2026-02-24💻 cs

Controlled Face Manipulation and Synthesis for Data Augmentation

Die Autoren stellen eine Methode zur kontrollierten Manipulation und Synthese von Gesichtern im semantischen latenten Raum vor, die durch entanglement-reduzierende Techniken wie abhängige Konditionierung und orthogonale Projektion hochwertige Daten für das Training von Gesichtsausdruckserkennungsmodellen generiert und so deren Genauigkeit sowie Disentanglement signifikant verbessert.

Joris Kirchner, Amogh Gudi, Marian Bittner + 1 more2026-02-24🤖 cs.LG