Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

本文通过图论抽象从理论层面揭示了强化学习在提升大语言模型规划能力方面的优势与局限,指出监督微调易引入虚假解而强化学习依赖探索实现泛化,同时对比发现策略梯度存在多样性崩溃缺陷,而 Q 学习凭借离线学习和收敛时的多样性保持更具优势,但需警惕奖励设计不当引发的 Q 值偏差,并在 Blocksworld 基准测试中验证了这些理论发现。

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

该论文通过大规模专家标注研究指出,单纯依赖 n-gram 新颖性作为文本创造力指标存在严重缺陷,因为它忽略了“恰当性”这一关键维度,且高 n-gram 新颖性往往与低实用性相关,因此建议采用结合人类专家判断或更先进的大模型评估方法来更准确地衡量文本创造力。

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

本文提出了一种基于开源大语言模型的“置信度感知细粒度辩论”(CFD)框架,通过模拟协作标注机制有效解决了心理健康与在线安全领域多标签数据标注困难的问题,并在引入新构建的专家标注数据集后,验证了该框架在提升下游任务性能方面的显著优势。

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

该论文提出了一种针对掩码扩散语言模型(MDLMs)的激活导向机制,通过提取单一低维方向并在去噪过程中施加全局干预,实现了无需优化即可高效、系统地控制模型行为(如安全拒绝),并揭示了该机制在扩散模型中特有的可访问性及跨语言迁移能力,同时指出其难以直接迁移至自回归架构。

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL