cs.CL articles | Gist.Science

HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

Le papier présente HeartAgent, un système autonome d'agents spécialisés en cardiologie qui améliore significativement la précision du diagnostic différentiel et la qualité des explications cliniques en intégrant des outils personnalisés et des données curées pour fournir un raisonnement transparent et vérifiable.

Shuang Zhou, Kai Yu, Song Wang, Wenya Xie, Zaifu Zhan, Meng-Han Tsai, Yuen-Hei Chung, Shutong Hou, Huixue Zhou, Min Zeng, Bhavadharini Ramu, Lin Yee Chen, Feng Xie, Rui Zhang2026-03-12💬 cs.CL

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

Ce papier présente mAceReason-Math, un jeu de données multilingue de haute qualité comprenant plus de 10 000 problèmes mathématiques complexes traduits dans 14 langues, spécifiquement conçu pour faciliter la recherche et l'évaluation du Reinforcement Learning with Verifiable Rewards (RLVR) au-delà du domaine anglophone.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

Cette étude révèle que la robustesse des grands modèles de langage face aux tokenisations non canoniques repose sur un mécanisme de « récupération de mots », où les états cachés reconstruisent les identités des tokens au niveau des mots à partir des caractères grâce à une attention intra-groupe critique.

Zhipeng Yang, Shu Yang, Lijie Hu, Di Wang2026-03-12💬 cs.CL

Large Language Models as Annotators for Machine Translation Quality Estimation

Cette étude propose d'utiliser des modèles de langage de grande taille (LLM) pour générer des annotations de type MQM afin d'entraîner un modèle COMET, offrant ainsi une solution rentable et performante pour l'estimation de la qualité de la traduction machine.

Sidi Wang, Sophie Arnoult, Amir Kamran2026-03-12💬 cs.CL

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Cette étude présente un pipeline assisté par LLM qui transforme quatre protocoles d'identification des métaphores en scripts de règles exécutables et auditable, démontrant que le choix du protocole est le facteur dominant de variation dans la détection des métaphores en chinois tout en garantissant une transparence totale et une reproductibilité déterministe.

Weihang Huang, Mengna Liu2026-03-12💬 cs.CL

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

L'article présente LuxBorrow, une analyse centrée sur les emprunts linguistiques dans 259 305 articles d'actualités luxembourgeois couvrant 27 ans, révélant une pratique multilingue omniprésente où le français domine les adaptations morphologiques et orthographiques, tout en plaidant pour des métriques d'évaluation spécifiques aux emprunts plutôt que pour de simples indices de mélange au niveau du document.

Nina Hosseini-Kivanani, Fred Philippy2026-03-12💬 cs.CL

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

Cet article présente le Multilingual Reasoning Gym, une extension du Reasoning Gym qui génère procéduralement des problèmes de raisonnement vérifiables et parallèles dans 14 langues pour soutenir la recherche sur les modèles de raisonnement multilingues.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

Le papier présente PivotAttack, un cadre d'attaque textuelle à étiquettes dures efficace en requêtes qui utilise un algorithme de bandit manchot pour identifier et perturber stratégiquement des ensembles de mots pivots, surpassant ainsi les méthodes existantes en taux de succès et en économie de requêtes.

Yuzhi Liang, Shiliang Xiao, Jingsong Wei, Qiliang Lin, Xia Li2026-03-12💬 cs.CL

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Le papier présente EvoKernel, un cadre d'agents auto-évolutif qui surmonte le manque de données pour la synthèse de noyaux NPU en utilisant une approche de mémoire basée sur la valeur pour passer du brouillage initial au raffinement continu, améliorant ainsi considérablement la justesse et les performances des modèles de langage.

Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen2026-03-12🤖 cs.LG

$V_{0.5}$ : Generalist Value Model as a Prior for Sparse RL Rollouts

Ce papier propose $V_{0.5}$ , un modèle de valeur généraliste qui fusionne de manière adaptative un prior pré-entraîné avec des moyennes empiriques issues de rollouts épars, en utilisant des tests statistiques en temps réel pour allouer dynamiquement le budget de calcul et ainsi minimiser la variance et le biais afin d'améliorer significativement la convergence et les performances des politiques d'apprentissage par renforcement.

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye2026-03-12🤖 cs.LG

SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

Le corpus SiDiaC-v.2.0 est la plus grande ressource diachronique en langue sinhala à ce jour, couvrant la période de 1800 à 1955 avec 244 000 mots issus de 185 œuvres littéraires soigneusement nettoyées et catégorisées pour soutenir le traitement automatique des langues à faible ressource.

Nevidu Jayatilleke, Nisansa de Silva, Uthpala Nimanthi, Gagani Kulathilaka, Azra Safrullah, Johan Sofalas2026-03-12💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Cet article présente un corpus bilingue anglais-allemand annoté avec la Norme d'Autorité Intégrée (GND) et une taxonomie machine-actionable, conçus pour faciliter le classement automatique des notices de bibliothèque et le développement de copilotes d'IA transparents et ancrés dans l'autorité pour assister les catalogueurs.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma Suominen2026-03-12💬 cs.CL

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

Ce papier présente ARMADA, un cadre efficace de distillation de connaissances croisée qui transfère le savoir des grands modèles vision-langage (y compris les modèles boîte noire) vers des modèles linguistiques purs en utilisant des techniques d'alignement novatrices, permettant ainsi d'améliorer les performances des modèles de langage sans nécessiter de pré-entraînement multimodal coûteux ni de modification du modèle enseignant.

Ayan Sengupta, Shantanu Dixit, Md Shad Akhtar, Tanmoy Chakraborty2026-03-12💬 cs.CL

GLM-OCR Technical Report

GLM-OCR est un modèle multimodal compact de 0,9 milliard de paramètres qui allie efficacité computationnelle et performances de pointe pour la compréhension de documents réels grâce à un mécanisme de prédiction multi-jetons et une pipeline en deux étapes.

Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang2026-03-12💬 cs.CL

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Le papier présente LLM2Vec-Gen, une nouvelle approche auto-supervisée qui génère des plongements textuels en apprenant à représenter la réponse potentielle d'un grand modèle de langage plutôt que son entrée, permettant ainsi d'atteindre des performances de pointe sur le benchmark MTEB tout en transférant des capacités de sécurité et de raisonnement sans nécessiter de données étiquetées.

Parishad BehnamGhader, Vaibhav Adlakha, Fabian David Schmidt, Nicolas Chapados, Marius Mosbach, Siva Reddy2026-03-12💬 cs.CL

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

Ce papier présente TOSSS, un nouveau benchmark basé sur la base de données CVE permettant d'évaluer la capacité des modèles de langage à distinguer le code sécurisé du code vulnérable, révélant des scores de sécurité variables parmi 14 modèles testés.

Marc Damie, Murat Bilgehan Ertan, Domenico Essoussi, Angela Makhanu, Gaëtan Peter, Roos Wensveen2026-03-12🤖 cs.LG

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Cette étude systématique démontre que le choix du modèle de rétroaction est déterminant pour l'efficacité de la rétroaction de pertinence pseudo (PRF) basée sur les LLM, tout en identifiant que l'utilisation de textes générés par les LLM constitue la solution la plus rentable, tandis que l'exploitation du corpus est optimale lorsque le premier stade de récupération est déjà performant.

Nour Jedidi, Jimmy Lin2026-03-12💬 cs.CL

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Cette étude remet en cause l'hypothèse selon laquelle le consensus entre les modèles de langage (LLM) garantit une évaluation fiable en révélant une « illusion d'évaluation » basée sur des heuristiques de surface, et propose à la place le cadre MERG, qui génère dynamiquement des rubriques ancrées dans des connaissances expertes pour améliorer la pertinence des jugements.

Mingyang Song, Mao Zheng, Chenning Xu2026-03-12💬 cs.CL

Instruction set for the representation of graphs

Ce papier présente IsalGraph, une méthode qui encode la structure de tout graphe fini simple en une chaîne de caractères compacte et isomorphe-invariante, permettant des applications efficaces en recherche de similarité, génération de graphes et modélisation par langage.

Ezequiel Lopez-Rubio, Mario Pascual-Gonzalez2026-03-12💬 cs.CL

COMIC: Agentic Sketch Comedy Generation

Les auteurs proposent un système d'IA entièrement automatisé qui génère des vidéos comiques de type « sketch » en mobilisant une population d'agents inspirés des rôles d'un studio de production et en s'appuyant sur des critiques LLM entraînés sur des données YouTube pour évaluer et optimiser l'humour, produisant ainsi des résultats de qualité professionnelle.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

← Précédent Suivant →

cs.CL