HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

Das Paper stellt HeartAgent vor, ein autonomes Agentensystem für die Kardiologie, das durch die Integration spezialisierter Tools und Sub-Agenten eine zuverlässige, erklärbare Differentialdiagnose ermöglicht und sowohl in Tests als auch bei der Unterstützung von Klinikern signifikante Verbesserungen der Diagnosegenauigkeit und Erklärungsqualität gegenüber bestehenden Methoden zeigt.

Shuang Zhou, Kai Yu, Song Wang, Wenya Xie, Zaifu Zhan, Meng-Han Tsai, Yuen-Hei Chung, Shutong Hou, Huixue Zhou, Min Zeng, Bhavadharini Ramu, Lin Yee Chen, Feng Xie, Rui Zhang2026-03-12💬 cs.CL

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

Das Paper stellt mAceReason-Math vor, einen hochwertigen Datensatz mit über 10.000 mathematischen Aufgaben pro Sprache in 14 Sprachen, der speziell für das Training von Modellen mittels Reinforcement Learning with Verifiable Rewards (RLVR) entwickelt wurde, um die bisherige englischzentrierte Forschung zu erweitern.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

Large Language Models as Annotators for Machine Translation Quality Estimation

Die Arbeit schlägt vor, Large Language Models zur Generierung von MQM-ähnlichen Annotationen zu nutzen, um damit einen COMET-Modell für die kosteneffiziente Segment-Level-Qualitätsschätzung von Maschineller Übersetzung zu trainieren, wobei ein vereinfachtes MQM-Schema und ein GPT-4o-basierter Prompt (PPbMQM) entwickelt wurden, die zu wettbewerbsfähigen Ergebnissen für Chinesisch-Englisch und Englisch-Deutsch führen.

Sidi Wang, Sophie Arnoult, Amir Kamran2026-03-12💬 cs.CL

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Diese Studie stellt einen interpretierbaren, LLM-gestützten Ansatz zur Identifizierung chinesischer Metaphern vor, der verschiedene Protokolle als ausführbare Regel-Skripte operationalisiert und zeigt, dass die Wahl des Protokolls die größte Variationsquelle darstellt, während gleichzeitig vollständige Transparenz und reproduzierbare Begründungen gewährleistet werden.

Weihang Huang, Mengna Liu2026-03-12💬 cs.CL

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

Die Studie „LuxBorrow" analysiert anhand eines umfassenden Korpus luxemburgischer Nachrichtenartikel über 27 Jahre hinweg, dass das Luxemburgische trotz allgegenwärtiger Mehrsprachigkeit als Matrixsprache fungiert, wobei französische Entlehnungen dominieren und morphologische Anpassungen zunehmen, was eine bewertungsorientierte Fokussierung auf Entlehnungsmechanismen statt nur auf globale Mischungsindizes nahelegt.

Nina Hosseini-Kivanani, Fred Philippy2026-03-12💬 cs.CL

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

Die Arbeit stellt PivotAttack vor, ein abfrageeffizientes Framework für Textangriffe mit harten Labels, das mittels eines Multi-Armed-Bandit-Algorithmus Pivot-Sets identifiziert und gezielt manipuliert, um die Suchraumgröße zu verringern und die Angriffserfolgsrate sowie die Effizienz gegenüber bestehenden Methoden zu steigern.

Yuzhi Liang, Shiliang Xiao, Jingsong Wei, Qiliang Lin, Xia Li2026-03-12💬 cs.CL

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Die Arbeit stellt EvoKernel vor, ein selbstentwickelndes Agenten-Framework, das durch einen wertgesteuerten, speicherbasierten Lernansatz die Herausforderung des „Cold-Starts" beim Synthesieren von NPU-Kernen in datenarmen Domänen überwindet und dabei die Korrektheit von 11 % auf 83 % sowie eine mediane Geschwindigkeitssteigerung von 3,6-fach erzielt.

Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen2026-03-12🤖 cs.LG

V0.5V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

Die Arbeit stellt V0.5V_{0.5} vor, ein Verfahren, das ein generalistisches Wertmodell als Prior mit empirischen Daten aus spärlichen Rollouts durch dynamische Budgetzuweisung und statistische Tests adaptiv kombiniert, um eine robuste, varianzarme Vorteilsschätzung für effizientes Reinforcement Learning mit verifizierbaren Belohnungen zu gewährleisten.

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye2026-03-12🤖 cs.LG

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Diese Arbeit stellt ein großes zweisprachiges Korpus mit Katalogdatensätzen und einer maschinenlesbaren GND-Taxonomie vor, um ontologiebewusste Multi-Label-Klassifikation und agentengestützte Katalogisierung zu ermöglichen, wobei die Evaluierung nicht nur die Genauigkeit, sondern auch den praktischen Nutzen und die Transparenz von KI-Systemen für Bibliothekare in den Vordergrund stellt.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma Suominen2026-03-12💬 cs.CL

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

Die Arbeit stellt ARMADA vor, ein effizientes Framework für den wissensbasierten Transfer von großen, auch black-box Vision-Language-Modellen auf reine Sprachmodelle, das ohne teures Vor-Training oder Anpassung des Lehrmodells auskommt und nachweislich die Leistung bei Sprachverständnis- und Generierungsaufgaben verbessert.

Ayan Sengupta, Shantanu Dixit, Md Shad Akhtar, Tanmoy Chakraborty2026-03-12💬 cs.CL

GLM-OCR Technical Report

GLM-OCR ist ein effizientes, kompaktes Multimodal-Modell mit 0,9 Milliarden Parametern, das durch einen CogViT-Vision-Encoder, einen GLM-Sprachdecoder und einen Multi-Token-Vorhersage-Mechanismus in Kombination mit einer zweistufigen Pipeline state-of-the-art-Ergebnisse bei der Dokumentenverarbeitung erzielt und sich sowohl für ressourcenbeschränkte Edge-Geräte als auch für großskalige Produktionssysteme eignet.

Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang2026-03-12💬 cs.CL

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Diese Studie widerlegt die Annahme, dass eine hohe Übereinstimmung zwischen LLM-Bewertern auf Zuverlässigkeit hindeutet, indem sie das Phänomen der „Evaluationsillusion" aufdeckt, bei der Bewertungen auf oberflächlichen Heuristiken basieren, und zeigt gleichzeitig, dass dynamisch generierte, wissensbasierte Rubriken (MERG) die Bewertungskonsistenz in kodifizierten Domänen signifikant verbessern.

Mingyang Song, Mao Zheng, Chenning Xu2026-03-12💬 cs.CL