cs.CL 篇论文 | Gist.Science

HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

本文介绍了名为 HeartAgent 的自主智能体系统，该系统通过整合定制化工具与多智能体协作机制，在心血管疾病的鉴别诊断中显著提升了准确率与可解释性，并有效辅助临床医生做出更可靠的决策。

Shuang Zhou, Kai Yu, Song Wang, Wenya Xie, Zaifu Zhan, Meng-Han Tsai, Yuen-Hei Chung, Shutong Hou, Huixue Zhou, Min Zeng, Bhavadharini Ramu, Lin Yee Chen, Feng Xie, Rui Zhang2026-03-12💬 cs.CL

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

该论文提出了 mAceReason-Math 数据集，这是一个包含 14 种语言、每种语言超 1 万条样本的高质量多语言数学难题集，旨在填补当前强化学习验证奖励（RLVR）领域缺乏非英语训练数据的空白，以推动多语言 RLVR 研究与基准测试。

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

该论文通过机械可解释性研究揭示了大型语言模型在字符级输入下表现鲁棒性的核心机制是“单词恢复”，即模型能够利用早期层中同属一个标准词元的字符间注意力来重建词元身份，从而维持下游任务性能。

Zhipeng Yang, Shu Yang, Lijie Hu, Di Wang2026-03-12💬 cs.CL

Large Language Models as Annotators for Machine Translation Quality Estimation

该论文提出利用大语言模型生成简化的 MQM 风格标注来训练 COMET 模型，通过设计 PPbMQM 提示模式，在降低推理成本的同时实现了中 - 英和英 - 德机器翻译质量估计的竞争性表现。

Sidi Wang, Sophie Arnoult, Amir Kamran2026-03-12💬 cs.CL

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

该论文提出了一种利用大语言模型辅助生成可执行规则脚本的管道，将四种隐喻识别协议（MIP/MIPVU、CMDAG、情感检测及明喻识别）转化为透明且可审计的模块化流程，并在七个中文数据集上首次进行了跨协议比较，揭示了协议选择对识别结果的影响远超模型差异，同时证明了该方法在保持完全透明性的同时具备竞争力。

Weihang Huang, Mengna Liu2026-03-12💬 cs.CL

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

本文介绍了 LuxBorrow 项目，该项目通过对 1999 至 2025 年间 25 万多篇卢森堡语新闻进行基于借词的分析，揭示了卢森堡语作为核心语言在多语混用中保持主导地位的同时，借词现象普遍存在且随时间推移在形态适应和法语来源方面呈现显著增长趋势。

Nina Hosseini-Kivanani, Fred Philippy2026-03-12💬 cs.CL

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

本文提出了“多语言推理健身房”（Multilingual Reasoning Gym），这是一个在原有推理健身房基础上的扩展，通过原生母语者验证和针对性适配，在 14 种语言中程序化地生成了 94 类可验证的推理任务，从而支持大规模跨语言数据生成及多语言推理模型的强化学习与评估研究。

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

本文提出了名为 PivotAttack 的新型框架，通过利用多臂老虎机算法识别作为预测锚点的“枢轴词集”并采用“由内而外”的扰动策略，显著提升了硬标签文本攻击的查询效率与攻击成功率。

Yuzhi Liang, Shiliang Xiao, Jingsong Wei, Qiliang Lin, Xia Li2026-03-12💬 cs.CL

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

针对数据稀缺的 NPU 内核合成领域，本文提出了名为 EvoKernel 的自进化智能体框架，通过基于价值的记忆检索机制实现从冷启动草稿到持续优化的自动化流程，显著提升了大模型在特定硬件生态中的代码正确率与执行效率。

Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen2026-03-12🤖 cs.LG

$V_{0.5}$ : Generalist Value Model as a Prior for Sparse RL Rollouts

本文提出了 $V_{0.5}$ 模型，通过实时统计检验动态融合通用价值模型先验与稀疏采样经验均值，在极低方差下构建鲁棒优势基线，从而在数学推理任务中显著超越 GRPO 和 DAPO 并实现更快的收敛。

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye2026-03-12🤖 cs.LG

SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

SiDiaC-v.2.0 是迄今为止规模最大的斯里兰卡语历时语料库，收录了涵盖 1800 至 1955 年出版日期的 185 部文学作品（共 24.4 万词），经过严格的筛选、预处理、版权合规检查及后处理，并借鉴了其他语料库的构建实践，为低资源语言的自然语言处理提供了宝贵的分层分类资源。

Nevidu Jayatilleke, Nisansa de Silva, Uthpala Nimanthi, Gagani Kulathilaka, Azra Safrullah, Johan Sofalas2026-03-12💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

本文发布了一个包含英语和德语编目记录及机器可读 GND 本体的大型双语数据集，旨在通过支持本体感知的多标签分类和可复现的评估，推动权威锚定的人工智能在数字图书馆编目中的实际应用。

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma Suominen2026-03-12💬 cs.CL

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

本文提出了 ARMADA 框架，通过创新的跨模态对齐技术，无需修改或预训练黑盒视觉 - 语言教师模型，即可高效地将知识蒸馏给纯语言学生模型，从而在多种自然语言理解、生成推理及指令微调任务中显著提升性能。

Ayan Sengupta, Shantanu Dixit, Md Shad Akhtar, Tanmoy Chakraborty2026-03-12💬 cs.CL

GLM-OCR Technical Report

GLM-OCR 是一款参数量仅为 0.9B 的高效紧凑型多模态模型，通过结合 CogViT 视觉编码器与 GLM 语言解码器，并引入多 token 预测机制及两阶段处理流程，在显著降低计算资源消耗的同时，实现了在文档解析、公式转录、表格结构恢复及关键信息提取等任务中的卓越性能，适用于边缘设备部署与大规模生产系统。

Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang2026-03-12💬 cs.CL

cs.CL

HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

Large Language Models as Annotators for Machine Translation Quality Estimation

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

$V_{0.5}$ : Generalist Value Model as a Prior for Sparse RL Rollouts

SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

GLM-OCR Technical Report

LLM2Vec-Gen: Generative Embeddings from Large Language Models

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Instruction set for the representation of graphs

COMIC: Agentic Sketch Comedy Generation

cs.CL

HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

Large Language Models as Annotators for Machine Translation Quality Estimation

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

V0.5V_{0.5}V0.5​: Generalist Value Model as a Prior for Sparse RL Rollouts

SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

GLM-OCR Technical Report

LLM2Vec-Gen: Generative Embeddings from Large Language Models

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Instruction set for the representation of graphs

COMIC: Agentic Sketch Comedy Generation

$V_{0.5}$ : Generalist Value Model as a Prior for Sparse RL Rollouts