LLM Probability Concentration: How Alignment Shrinks the Generative Horizon
该论文提出了“分支因子”(Branching Factor)作为衡量大语言模型输出多样性的指标,发现对齐训练通过引导模型进入低熵轨迹显著降低了该因子,从而解释了其对解码策略不敏感的原因,并揭示了思维链推理通过利用生成后期更确定的阶段来增强输出稳定性的机制。
1342 篇论文
该论文提出了“分支因子”(Branching Factor)作为衡量大语言模型输出多样性的指标,发现对齐训练通过引导模型进入低熵轨迹显著降低了该因子,从而解释了其对解码策略不敏感的原因,并揭示了思维链推理通过利用生成后期更确定的阶段来增强输出稳定性的机制。
本文提出并训练了首个开源纯右向左自回归语言模型 LEDOM,发现其具备独特的推理能力,并通过结合前向似然与反向后验的“反向奖励”机制,显著提升了模型在数学推理任务中的表现并有效抑制了幻觉。
本文提出了通过人机协同两阶段管道构建的 4000 万规模偏好数据集 SynPref-40M,并据此训练出在多项基准测试中超越现有开源模型、具备广泛对齐能力的 Skywork-Reward-V2 奖励模型系列,证明了高质量数据策展对提升奖励模型性能的关键作用。
本文提出了一种利用大语言模型模拟具有不同中介变量的虚拟受访者,以高效验证心理测量题项构念效度的新框架,并通过在三大心理特质理论上的实验证明了其能有效识别高信度题项。
该论文提出了 ASCoT 方法,通过识别并针对性地修复推理后期更致命的“晚期脆弱性”错误,在显著降低大模型推理 Token 消耗的同时保持了极高的准确率。
本文针对流程工业中因班次日志碎片化而阻碍知识检索的问题,提出了一种结合自然语言推理与语义文本相似性的跨文档共指消解记录链接模型,该模型在链接预测任务中显著优于传统基线,有效提升了数据质量与连通性。
该研究证明,仅利用词元生育率、词元数量及语言元数据等特征,即可在不实际运行翻译系统的情况下,以较高精度预测 GPT-4o 在 203 种语言上的翻译质量。
该论文通过 AfriMMLU 基准测试揭示了词元化效率低下对形态复杂及低资源语言造成的系统性偏见,指出词元膨胀不仅直接降低模型准确率并增加计算成本,还强调了推理模型在缩小语言差距方面的潜力,从而呼吁采用形态感知词元化、公平定价及多语言基准以实现更公平的 NLP。
该研究通过在大型语言模型生成答案前提取激活值并训练线性探针,发现模型内部存在一种能跨分布预测回答正确性及置信度的“预先正确性”信号,尽管该信号在数学推理任务上的泛化能力有限。
本文提出了一种基于词项先验统计的无模型数据过滤方法,作为传统困惑度(PPL)过滤的高效替代方案,在大幅降低计算成本的同时实现了更优的下游任务性能。
本文提出了一种基于柯尔莫哥洛夫复杂度的渐近最优描述长度目标框架,证明了其在 Transformer 模型中的存在性,并通过变分高斯混合先验构建了可微分的实用目标,从而为训练具有更强压缩能力和泛化性能的神经网络提供了理论路径。
本文通过图论抽象从理论层面揭示了强化学习在提升大语言模型规划能力方面的优势与局限,指出监督微调易引入虚假解而强化学习依赖探索实现泛化,同时对比发现策略梯度存在多样性崩溃缺陷,而 Q 学习凭借离线学习和收敛时的多样性保持更具优势,但需警惕奖励设计不当引发的 Q 值偏差,并在 Blocksworld 基准测试中验证了这些理论发现。
该论文通过大规模专家标注研究指出,单纯依赖 n-gram 新颖性作为文本创造力指标存在严重缺陷,因为它忽略了“恰当性”这一关键维度,且高 n-gram 新颖性往往与低实用性相关,因此建议采用结合人类专家判断或更先进的大模型评估方法来更准确地衡量文本创造力。
该论文提出了 ManagerBench 基准,用于评估自主大语言模型在运营目标与人类安全发生冲突时的决策能力,研究发现前沿模型虽能准确识别危害,却因优先级的错误排序而在“安全”与“务实”的权衡中表现不佳,往往选择有害行动或过度保守导致失效。
本文介绍了 AccurateRAG 框架,该框架通过提供涵盖数据处理、微调、评估及本地系统构建的全流程工具,显著提升了检索增强生成(RAG)问答应用的性能,并在基准测试中取得了超越现有强基线的最新最佳结果。
本文提出了 Cache-to-Cache (C2C) 新范式,通过直接投影和融合大语言模型的 KV-Cache 实现模型间深层语义通信,从而在避免文本生成延迟的同时,显著提升了多模型系统的准确率与推理速度。
本文提出了 LaDiR 框架,通过结合变分自编码器构建结构化潜在推理空间与潜在扩散模型实现块级双向注意力的迭代优化,从而克服了传统自回归解码的局限,显著提升了大语言模型在数学推理与规划任务中的准确性、多样性及可解释性。
本文提出了一种名为能量景观引导(ELS)的无需微调的推理时干预框架,通过训练轻量级能量模型动态引导大语言模型的隐藏状态,在保持安全性的同时显著降低了过度拒绝率。
该论文通过评估 10 种语言下的多种预训练模型,发现尽管有明确指令和上下文信息,语言模型仍难以区分借词与原生词汇,且表现出对借词的偏见,这一发现对开发少数语言 NLP 工具及支持语言保护具有重要意义。
该论文提出了 STARS 算法,通过引入基于固定时间间隔的同步验证机制,克服了现有推理时对齐方法依赖模型不确定性所带来的幻觉风险与硬件利用率低下问题,在显著提升大语言模型对齐可靠性与系统吞吐量的同时,实现了更具可扩展性的安全部署。