ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

Die Studie stellt ICHOR vor, einen selbstüberwachten Ansatz auf Basis von Masked Autoencodern, der mithilfe einer großen, multizentrischen Datensammlung von 11.405 ASL-CBF-Scans robuste Repräsentationen für die Verbesserung diagnostischer Klassifizierung und Qualitätsvorhersage in der zerebralen Durchblutungsmessung lernt und dabei bestehende Methoden übertrifft.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

Das Paper stellt Wiki-R1 vor, ein Curriculum-Reinforcement-Learning-Framework, das durch kontrollierte Datengenerierung und eine gezielte Stichprobenstrategie multimodale Sprachmodelle schrittweise an die Anforderungen von wissensbasierten visuellen Frage-Antwort-Aufgaben anpasst und dabei neue State-of-the-Art-Ergebnisse auf den Benchmarks Encyclopedic VQA und InfoSeek erzielt.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

Die Arbeit stellt MobileFetalCLIP vor, einen effizienten 11,4-Millionen-Parameter-Studenten-Modell, das durch eine neuartige selektive repulsive Wissensdistillation trainiert wird und damit einen 304-Millionen-Parameter-Lehrer bei der Analyse fetaler Ultraschallbilder übertrifft, was eine Echtzeit-Anwendung auf mobilen Geräten in ressourcenarmen Umgebungen ermöglicht.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

Die Arbeit stellt SAIL vor, einen neuartigen Ansatz für das schwach überwachte dichte Videocaptioning, der semantisch bewusste Masken durch cross-modale Ausrichtung und eine LLM-basierte Erweiterung mit synthetischen Untertiteln nutzt, um die zeitliche Lokalisierung und Beschreibung von Ereignissen in Videos signifikant zu verbessern.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

Das Paper stellt NaiLIA vor, ein multimodales Suchverfahren für Nageldesigns, das dichte Absichtsbeschreibungen und Farbpaletten-Abfragen integriert, um die Herausforderungen bei der präzisen Bildsuche zu bewältigen, und durch ein neues Benchmark-Dataset sowie experimentelle Ergebnisse seine Überlegenheit gegenüber Standardmethoden nachweist.

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs