HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

HeartAgent is een autonoom agentensysteem dat gespecialiseerde sub-agenten en aangepaste hulpmiddelen integreert om betrouwbare, uitlegbare differentiaaldiagnoses voor hartziekten te ondersteunen, wat leidt tot aanzienlijke verbeteringen in diagnostische nauwkeurigheid en verklarende kwaliteit voor zowel AI-modellen als klinische experts.

Shuang Zhou, Kai Yu, Song Wang, Wenya Xie, Zaifu Zhan, Meng-Han Tsai, Yuen-Hei Chung, Shutong Hou, Huixue Zhou, Min Zeng, Bhavadharini Ramu, Lin Yee Chen, Feng Xie, Rui Zhang2026-03-12💬 cs.CL

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Deze studie introduceert een interpreteerbare, door LLM's ondersteunde pipeline die vier Chinese metafooridentificatieprotocollen omzet in uitvoerbare regelscripts, waarmee voor het eerst een cross-protocol vergelijking wordt gedaan die aantoont dat de keuze van het protocol de grootste variatiebron is en dat deze transparante architectuur concurrerende prestaties levert.

Weihang Huang, Mengna Liu2026-03-12💬 cs.CL

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Het paper introduceert EvoKernel, een zelfevoluerend agentiek framework dat door middel van een waardegedreven geheugenaanpak en versterkingsleer de uitdagingen van het ontbreken van trainingsdata voor NPU-kernels oplost, waardoor de correctheid van generatieve modellen van 11% naar 83% stijgt en de uitvoeringssnelheid met een factor 3,6 verbetert.

Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen2026-03-12🤖 cs.LG

V0.5V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

Dit paper introduceert V0.5V_{0.5}, een methode die een Generalist Value Model als prior combineert met empirische rollouts via real-time statistische testen en dynamische budgettoewijzing, waardoor een robuuste en efficiënte advantage-baseline wordt verkregen die significant betere prestaties en snellere convergentie bereikt dan GRPO en DAPO op wiskundige redeneerbenchmarks.

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye2026-03-12🤖 cs.LG

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Deze paper introduceert een tweetalig corpus en een machine-actievere GND-taxonomie voor het trainen en evalueren van AI-systemen die bibliothecarissen ondersteunen bij het automatisch toewijzen van onderwerpswoorden aan catalogusrecords.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma Suominen2026-03-12💬 cs.CL

GLM-OCR Technical Report

GLM-OCR is een compact multimodaal model van 0,9 miljard parameters dat door middel van een Multi-Token Prediction-mechanisme en een tweestaps-pijplijn efficiënte en state-of-the-art prestaties levert voor documentbegrip, geschikt voor zowel randapparatuur als schaalbare productiesystemen.

Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang2026-03-12💬 cs.CL

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Het paper introduceert LLM2Vec-Gen, een zelftoezichtmethode die frozen grote taalmodellen gebruikt om generatieve embeddings te leren door de modelrespons te representeren in plaats van de input, wat leidt tot state-of-the-art prestaties, verbeterde redeneer- en veiligheidskwaliteiten, en interpreteerbare embeddings die kunnen worden ontcijferd naar tekst.

Parishad BehnamGhader, Vaibhav Adlakha, Fabian David Schmidt, Nicolas Chapados, Marius Mosbach, Siva Reddy2026-03-12💬 cs.CL

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Dit paper weerlegt de aanname dat hoge onderlinge overeenstemming tussen LLM-beoordelaars betrouwbaarheid garandeert door aan te tonen dat deze vaak een illusie is gebaseerd op oppervlakkige heuristieken, en introduceert MERG, een kennisgestuurd raamwerk voor het dynamisch genereren van beoordelingsrubrieken dat in codificerende domeinen de consistentie verhoogt door gebruik te maken van expertkennis in plaats van generieke criteria.

Mingyang Song, Mao Zheng, Chenning Xu2026-03-12💬 cs.CL