Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation

本文基于包含 6000 多个源段及九种不同翻译假设(涵盖传统神经机器翻译与先进大语言模型)的真实人机后编辑数据集,通过“后见之明”实验评估了源端难度预测与候选端质量估计在 LLM 时代对翻译质量(以 TER 和 COMET 为指标)的预测能力,发现架构向大语言模型的转变既改变了既有质量预测方法的可靠性,也缓解了文档级翻译中的部分挑战。

Malik Marmonier, Benoît Sagot, Rachel Bawden2026-03-05💬 cs.CL

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

该论文通过 BeamPERL 研究指出,尽管基于可验证奖励的参数高效强化学习能显著提升小型模型在梁结构力学问题上的解题准确率,但其学习到的能力具有各向异性,往往导致模型形成特定的解题模板而非真正内化物理方程,从而难以应对拓扑结构变化等需要泛化推理的场景,表明仅靠精确的奖励信号不足以实现鲁棒的科学推理。

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

Traces of Social Competence in Large Language Models

该研究通过测试 17 个开源大语言模型在 192 个错误信念测试变体上的表现,揭示了模型规模与后训练对社会认知能力的影响,发现命题态度显式化会引发响应模式的交叉效应,且该效应在预训练阶段即已出现,最终通过向量干预证实了“思考”向量是驱动此类社会推理行为的关键因果因素。

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn2026-03-05💬 cs.CL