HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

Die Arbeit stellt HanMoVLM vor, ein auf Large Vision-Language Models basierendes System, das durch die Einführung des HanMo-Bench-Datensatzes und expertenvalidiertes Chain-of-Thought-Reasoning professionelle Bewertungen chinesischer Gemälde ermöglicht und als hochqualitativer Verifizierer die Testzeit-Skalierung für die Generierung künstlerisch überlegener Bilder unterstützt.

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

Die Arbeit stellt UltrasoundAgents vor, ein hierarchisches Multi-Agenten-Framework, das durch einen entkoppelten progressiven Trainingsansatz und eine evidenzbasierte Schlussfolgerungskette die Brustultraschalldiagnose verbessert, indem es den klinischen Workflow nachahmt und transparente, nachvollziehbare BI-RADS-Klassifikationen liefert.

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

Die Arbeit stellt DIPE vor, eine neue Positionenkodierung, die das Problem des visuellen Verblassens in multimodalen Großsprachmodellen bei langen Kontexten löst, indem sie die durch Multimodal-RoPE verursachte Bestrafung intermodaler Aufmerksamkeit aufhebt und so eine stabile visuelle Verankerung unabhängig von der Textlänge gewährleistet.

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Exploring Indicators of Developers' Sentiment Perceptions in Student Software Projects

Diese Studie untersucht an 81 Studierenden, wie Stimmung, Lebensumstände und Gruppendynamiken die Wahrnehmung von Sentiment in Softwareprojekten beeinflussen, und zeigt, dass die Sentiment-Einschätzung stark von der individuellen Person und der Mehrdeutigkeit der Aussagen abhängt, während systematische Effekte von Projektphasen oder einzelnen Faktoren kaum nachweisbar sind.

Martin Obaidi, Marc Herrmann, Jendrik Martensen, Jil Klünder, Kurt Schneider2026-03-12💻 cs

RL-Augmented MPC for Non-Gaited Legged and Hybrid Locomotion

Die Autoren stellen eine hierarchische Architektur vor, die Reinforcement Learning mit Modellprädiktiver Regelung koppelt, um durch das Lernen von Gangmustern in der Simulation den rechenintensiven Abtastzeitpunkt für Kontakten zu entlasten und dabei eine erfolgreiche Null-Shot-Übertragung von der Simulation auf reale, nicht-gangbasierte und hybride Laufroboter ohne Domänenrandomisierung zu ermöglichen.

Andrea Patrizi, Carlo Rizzardo, Arturo Laurenzi, Francesco Ruscelli, Luca Rossini, Nikos G. Tsagarakis2026-03-12💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

Die Studie stellt VoxCare vor, ein skalierbares, datenschutzkonformes System zur Echtzeiterfassung von Kommunikationsmustern medizinischer Fachkräfte über tragbare Audio-Sensoren, um durch die Analyse von Sprechaktivität und vokaler Erregung Rückschlüsse auf Arbeitsbelastung und Stress im klinischen Alltag zu ziehen und so die Patientenversorgung zu verbessern.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth Narayanan2026-03-12💻 cs