HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

Le papier présente HeartAgent, un système autonome d'agents spécialisés en cardiologie qui améliore significativement la précision du diagnostic différentiel et la qualité des explications cliniques en intégrant des outils personnalisés et des données curées pour fournir un raisonnement transparent et vérifiable.

Shuang Zhou, Kai Yu, Song Wang, Wenya Xie, Zaifu Zhan, Meng-Han Tsai, Yuen-Hei Chung, Shutong Hou, Huixue Zhou, Min Zeng, Bhavadharini Ramu, Lin Yee Chen, Feng Xie, Rui Zhang2026-03-12💬 cs.CL

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

Ce papier présente mAceReason-Math, un jeu de données multilingue de haute qualité comprenant plus de 10 000 problèmes mathématiques complexes traduits dans 14 langues, spécifiquement conçu pour faciliter la recherche et l'évaluation du Reinforcement Learning with Verifiable Rewards (RLVR) au-delà du domaine anglophone.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Cette étude présente un pipeline assisté par LLM qui transforme quatre protocoles d'identification des métaphores en scripts de règles exécutables et auditable, démontrant que le choix du protocole est le facteur dominant de variation dans la détection des métaphores en chinois tout en garantissant une transparence totale et une reproductibilité déterministe.

Weihang Huang, Mengna Liu2026-03-12💬 cs.CL

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

L'article présente LuxBorrow, une analyse centrée sur les emprunts linguistiques dans 259 305 articles d'actualités luxembourgeois couvrant 27 ans, révélant une pratique multilingue omniprésente où le français domine les adaptations morphologiques et orthographiques, tout en plaidant pour des métriques d'évaluation spécifiques aux emprunts plutôt que pour de simples indices de mélange au niveau du document.

Nina Hosseini-Kivanani, Fred Philippy2026-03-12💬 cs.CL

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Le papier présente EvoKernel, un cadre d'agents auto-évolutif qui surmonte le manque de données pour la synthèse de noyaux NPU en utilisant une approche de mémoire basée sur la valeur pour passer du brouillage initial au raffinement continu, améliorant ainsi considérablement la justesse et les performances des modèles de langage.

Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen2026-03-12🤖 cs.LG

V0.5V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

Ce papier propose V0.5V_{0.5}, un modèle de valeur généraliste qui fusionne de manière adaptative un prior pré-entraîné avec des moyennes empiriques issues de rollouts épars, en utilisant des tests statistiques en temps réel pour allouer dynamiquement le budget de calcul et ainsi minimiser la variance et le biais afin d'améliorer significativement la convergence et les performances des politiques d'apprentissage par renforcement.

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye2026-03-12🤖 cs.LG

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Cet article présente un corpus bilingue anglais-allemand annoté avec la Norme d'Autorité Intégrée (GND) et une taxonomie machine-actionable, conçus pour faciliter le classement automatique des notices de bibliothèque et le développement de copilotes d'IA transparents et ancrés dans l'autorité pour assister les catalogueurs.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma Suominen2026-03-12💬 cs.CL

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

Ce papier présente ARMADA, un cadre efficace de distillation de connaissances croisée qui transfère le savoir des grands modèles vision-langage (y compris les modèles boîte noire) vers des modèles linguistiques purs en utilisant des techniques d'alignement novatrices, permettant ainsi d'améliorer les performances des modèles de langage sans nécessiter de pré-entraînement multimodal coûteux ni de modification du modèle enseignant.

Ayan Sengupta, Shantanu Dixit, Md Shad Akhtar, Tanmoy Chakraborty2026-03-12💬 cs.CL

GLM-OCR Technical Report

GLM-OCR est un modèle multimodal compact de 0,9 milliard de paramètres qui allie efficacité computationnelle et performances de pointe pour la compréhension de documents réels grâce à un mécanisme de prédiction multi-jetons et une pipeline en deux étapes.

Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang2026-03-12💬 cs.CL

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Le papier présente LLM2Vec-Gen, une nouvelle approche auto-supervisée qui génère des plongements textuels en apprenant à représenter la réponse potentielle d'un grand modèle de langage plutôt que son entrée, permettant ainsi d'atteindre des performances de pointe sur le benchmark MTEB tout en transférant des capacités de sécurité et de raisonnement sans nécessiter de données étiquetées.

Parishad BehnamGhader, Vaibhav Adlakha, Fabian David Schmidt, Nicolas Chapados, Marius Mosbach, Siva Reddy2026-03-12💬 cs.CL

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Cette étude systématique démontre que le choix du modèle de rétroaction est déterminant pour l'efficacité de la rétroaction de pertinence pseudo (PRF) basée sur les LLM, tout en identifiant que l'utilisation de textes générés par les LLM constitue la solution la plus rentable, tandis que l'exploitation du corpus est optimale lorsque le premier stade de récupération est déjà performant.

Nour Jedidi, Jimmy Lin2026-03-12💬 cs.CL

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Cette étude remet en cause l'hypothèse selon laquelle le consensus entre les modèles de langage (LLM) garantit une évaluation fiable en révélant une « illusion d'évaluation » basée sur des heuristiques de surface, et propose à la place le cadre MERG, qui génère dynamiquement des rubriques ancrées dans des connaissances expertes pour améliorer la pertinence des jugements.

Mingyang Song, Mao Zheng, Chenning Xu2026-03-12💬 cs.CL

COMIC: Agentic Sketch Comedy Generation

Les auteurs proposent un système d'IA entièrement automatisé qui génère des vidéos comiques de type « sketch » en mobilisant une population d'agents inspirés des rôles d'un studio de production et en s'appuyant sur des critiques LLM entraînés sur des données YouTube pour évaluer et optimiser l'humour, produisant ainsi des résultats de qualité professionnelle.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL