HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

Die Arbeit stellt HanMoVLM vor, ein auf Large Vision-Language Models basierendes System, das durch die Einführung des HanMo-Bench-Datensatzes und expertenvalidiertes Chain-of-Thought-Reasoning professionelle Bewertungen chinesischer Gemälde ermöglicht und als hochqualitativer Verifizierer die Testzeit-Skalierung für die Generierung künstlerisch überlegener Bilder unterstützt.

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation

Die Arbeit stellt BALD-SAM vor, ein aktives Lernframework, das die epistemische Unsicherheit eines kleinen Vorhersagekopfes nutzt, um bei der Segmentierung mit dem Segment-Anything-Modell (SAM) die informativsten räumlichen Prompt-Positionen automatisch zu identifizieren und dabei die menschliche und sogar die Orakel-Prompting-Leistung in vielfältigen Domänen übertreffen.

Prithwijit Chowdhury, Mohit Prabhushankar, Ghassan AlRegib2026-03-12🤖 cs.AI

On the Reliability of Cue Conflict and Beyond

Die Arbeit stellt mit REFINED-BIAS ein neues, zuverlässiges Evaluierungsframework vor, das die Instabilitäten und Ambiguitäten bestehender Cue-Conflict-Benchmarks behebt, um durch explizit definierte, ausgewogene Cue-Paare und eine rankingbasierte Messung über den gesamten Labelraum eine verlässlichere Diagnose von Form- und Textur-Bias in neuronalen Netzen zu ermöglichen.

Pum Jun Kim, Seung-Ah Lee, Seongho Park, Dongyoon Han, Jaejun Yoo2026-03-12🤖 cs.AI

Human Presence Detection via Wi-Fi Range-Filtered Doppler Spectrum on Commodity Laptops

Diese Arbeit stellt eine bahnbrechende Lösung zur Erkennung menschlicher Anwesenheit vor, die ausschließlich die integrierte Wi-Fi-Hardware von Standard-Laptops nutzt und durch eine neuartige, bereichsgefilterte Doppler-Spektrum-Analyse sowie eine adaptive Mehrraten-Verarbeitung kostengünstige, datenschutzfreundliche und kalibrierungsfreie Präsenzerkennung ohne externe Sensoren ermöglicht.

Jessica Sanson, Rahul C. Shah, Valerio Frascolla2026-03-12⚡ eess

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

Die Arbeit stellt UltrasoundAgents vor, ein hierarchisches Multi-Agenten-Framework, das durch einen entkoppelten progressiven Trainingsansatz und eine evidenzbasierte Schlussfolgerungskette die Brustultraschalldiagnose verbessert, indem es den klinischen Workflow nachahmt und transparente, nachvollziehbare BI-RADS-Klassifikationen liefert.

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

Die Arbeit stellt DIPE vor, eine neue Positionenkodierung, die das Problem des visuellen Verblassens in multimodalen Großsprachmodellen bei langen Kontexten löst, indem sie die durch Multimodal-RoPE verursachte Bestrafung intermodaler Aufmerksamkeit aufhebt und so eine stabile visuelle Verankerung unabhängig von der Textlänge gewährleistet.

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

Die vorgestellte Arbeit stellt ein lebenslanges Imitationslern-Framework vor, das durch multimodale latente Wiedergabe und eine inkrementelle Anpassung mit Winkelrandbeschränkung das kontinuierliche Lernen unter Speicherbeschränkungen ermöglicht und gleichzeitig das Vergessen reduziert, wodurch neue State-of-the-Art-Ergebnisse auf den LIBERO-Benchmarks erzielt werden.

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella, Cigdem Beyan, Vittorio Murino2026-03-12💻 cs

Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD

Die Studie stellt CBCTRepD vor, ein KI-gestütztes System zur Generierung von zahnärztlichen CBCT-Berichten, das auf einem großen Datensatz trainiert wurde und nachweislich Radiologen aller Erfahrungsstufen durch verbesserte Berichtqualität, Standardisierung und die Reduzierung von Diagnosefehlern unterstützt.

Qinxin Wu, Fucheng Niu, Hengchuan Zhu, Yifan Sun, Ye Shen, Xu Li, Han Wu, Leqi Liu, Zhiwen Pan, Zuozhu Liu, Fudong Zhu, Bin Feng2026-03-12💻 cs

Med-DualLoRA: Local Adaptation of Foundation Models for 3D Cardiac MRI

Die Arbeit stellt Med-DualLoRA vor, ein privatsphäreschonendes, federiertes Feinabstimmungsframework für medizinische Basismodelle, das durch die Trennung global geteilter und lokaler Parameter die Anpassung an heterogene 3D-Herz-MRT-Daten verbessert und dabei die Kommunikationskosten sowie Datenschutzrisiken minimiert.

Joan Perramon-Llussà, Amelia Jiménez-Sánchez, Grzegorz Skorupko, Fotis Avgoustidis, Carlos Martín-Isla, Karim Lekadir, Polyxeni Gkontra2026-03-12💻 cs