Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

本文通过图论抽象从理论层面揭示了强化学习在提升大语言模型规划能力方面的优势与局限,指出监督微调易引入虚假解而强化学习依赖探索实现泛化,同时对比发现策略梯度存在多样性崩溃缺陷,而 Q 学习凭借离线学习和收敛时的多样性保持更具优势,但需警惕奖励设计不当引发的 Q 值偏差,并在 Blocksworld 基准测试中验证了这些理论发现。

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

该论文通过大规模专家标注研究指出,单纯依赖 n-gram 新颖性作为文本创造力指标存在严重缺陷,因为它忽略了“恰当性”这一关键维度,且高 n-gram 新颖性往往与低实用性相关,因此建议采用结合人类专家判断或更先进的大模型评估方法来更准确地衡量文本创造力。

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL