cs.CL 篇论文 | Gist.Science

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

本文提出了 Graph-GRPO 框架，通过引入组相对策略优化（Group Relative Policy Optimization）对多智能体通信拓扑进行相对性能评估，有效解决了传统强化学习方法中因任务难度差异导致的梯度方差大和信用分配困难问题，从而显著提升了基于大语言模型的多智能体系统的训练稳定性与通信拓扑学习效率。

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

本文提出了一种名为 ASEGR 的框架，通过利用大语言模型从产品评论中提取感官属性并蒸馏为紧凑的感官嵌入，从而增强序列推荐模型对物品体验语义的理解能力，显著提升了推荐性能并增强了结果的可解释性。

Yeo Chan Yoon2026-03-04💬 cs.CL

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

本文提出了 DiSE 方法，通过计算序列再生概率来量化扩散语言模型（dLLMs）的置信度，从而实现了高效的自我评估、不确定性量化以及基于自适应长度控制的灵活生成。

Linhao Zhong, Linyu Wu, Wen Wang + 5 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

本文提出了涵盖对话评估与技能细粒度测试的 K-8 数学教学基准 KMP-Bench，揭示了当前大语言模型在数学辅导中虽擅长解题却缺乏 nuanced 教学原则应用的差距，并展示了通过大规模教学语料 KMP-Pile 微调可显著提升模型教学能力的成果。

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

该论文通过大规模基准测试和自动化分层错误分析，发现对于强大的多模态大语言模型而言，仅凭图像输入即可达到与传统 OCR 增强方案相当的业务文档信息提取性能，且精心设计的提示策略能进一步提升效果。

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

本文提出了 GLEAN 框架，通过结合专家指南与轨迹证据积累及贝叶斯校准机制，显著提升了高风险 LLM 智能体（如临床诊断）决策验证的准确性与可靠性。

Yichi Zhang, Nabeel Seedat, Yinpeng Dong + 3 more2026-03-04💬 cs.CL

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

该论文通过对比实验表明，在预测学生答题表现这一特定教育任务中，专用的知识追踪模型在准确率、推理速度和部署成本方面均显著优于大语言模型，证明了领域专用模型在此类场景下的不可替代性。

Prarthana Bhattacharyya, Joshua Mitton, Ralph Abboud + 1 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

该论文通过宏观上的对称狄利克雷分布阶序统计与微观上的最大熵模型，统一解释了全球语言中音素频率分布的规律及其与音位库存大小、发音、音系和词汇结构的内在联系。

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

该研究通过探测实验发现，大型视觉语言模型中节点和全局结构信息在视觉编码器阶段即已线性可分，而边信息仅在语言模型的文本令牌中才形成线性表示，这种边信息的延迟涌现解释了模型在理解节点与边等关系时面临的困难。

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Eval4Sim: An Evaluation Framework for Persona Simulation

该论文提出了 Eval4Sim 评估框架，通过从背景依从性、身份一致性和对话自然度三个维度，以人类对话语料为基准来衡量大语言模型角色模拟与真实人类交流模式的契合程度，从而克服了现有基于 LLM 评判方法的局限性。

Eliseo Bao, Anxo Perez, Xi Wang + 1 more2026-03-04💬 cs.CL

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

本文提出了 ACE-Merging 框架，通过从微调模型参数差异中隐式估计输入协方差，在无需数据访问的情况下以封闭形式有效缓解任务间干扰，从而在多个基准测试中实现了数据-free 模型合并的最先进性能。

Bo Xu, Haotian Wu, Hehai Lin + 4 more2026-03-04💬 cs.CL

Contextualized Privacy Defense for LLM Agents

本文提出了名为“上下文化防御指令”（CDI）的新范式，通过结合强化学习优化的指令模型，在 LLM 代理执行过程中动态生成上下文感知的隐私指导，从而在保持高有用性的同时显著提升了隐私保护能力与鲁棒性。

Yule Wen, Yanzhe Zhang, Jianxun Lian + 3 more2026-03-04💬 cs.CL

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

本文提出了 MaBERT，一种通过交替堆叠 Transformer 与 Mamba 层并结合填充安全掩码机制的混合编码器，旨在解决长上下文建模中的二次方计算开销与填充污染问题，从而在显著降低训练和推理成本的同时保持优异的语言理解性能。

Jinwoong Kim, Sangjin Park2026-03-04💬 cs.CL

cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Eval4Sim: An Evaluation Framework for Persona Simulation

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

Contextualized Privacy Defense for LLM Agents

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

Compact Prompting in Instruction-tuned LLMs for Joint Argumentative Component Detection

Interpreting Speaker Characteristics in the Dimensions of Self-Supervised Speech Features

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

UniSkill: A Dataset for Matching University Curricula to Professional Competencies