Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal
本文揭示,在大语言推理模型中,拒绝机制同时编码于残差流激活与思维链痕迹之中,使得简单的激活引导效果有限,除非同时对推理过程本身进行操控。
原作者已查阅我们通俗解释的论文。
本页收录的每篇论文,都有至少一位原作者阅读并参与了我们的通俗解释——或是确认其准确无误,或是提出修正意见并由我们随后采纳。作者的确认并不等同于对每一句话的正式背书,但说明该解释已经过论文作者的审视。
568 篇论文已由作者审阅 · 151–160 / 568
本文揭示,在大语言推理模型中,拒绝机制同时编码于残差流激活与思维链痕迹之中,使得简单的激活引导效果有限,除非同时对推理过程本身进行操控。
这项针对 1,400 个压力支撑系统的研究表明,重子 Faber-Jackson 关系与基本平面在加速度标度 m s 处发生系统性转变,其中高加速度系统遵循牛顿基本平面,而低加速度系统则符合与 MOND 预测一致的重子 Faber-Jackson 关系。
本文介绍了分布感知共形预测(DCP),这是一个模块化框架,它将多样化的概率预测器与评分无关的校准相结合,以生成适用于时间序列的有效且高效的预测区间,并通过一种新颖的数值反演方法和改进的温克勒评分,有效地适应不同的不确定性机制。
本文表明,稠密检索器中的位置偏差主要源于训练数据中证据的分布,而非模型架构的固有特性,从而证明平衡的数据策展能够在保持有竞争力的检索性能的同时显著缓解这一偏差。
本文提出了一种领域知识增强的 LLM 框架,该框架将结构化洞察与两阶段检测流程相结合,以有效识别欺骗性对话并将概念漂移分类为良性或欺诈性,在实现 98% 准确率的同时,相较于零样本基线展现出更优越的鲁棒性。
本文表明,SPX 与 RUT 之间的定价差距(传统上通过风险中性视角审视)在很大程度上可由全球资产(IEFA、IGOV、IAU)所捕捉的剩余物理测度投资机会加以解释,这表明有限的资本约束下看跌 - 看涨平价执行机制反映的是现实世界的投资动态,而非简单的套利失效。
本文表明,尽管看涨 - 看跌平价在到期收益层面成立,但每日结算与资本约束在期权隐含贴现因子与隔夜指数互换曲线之间造成了系统性且路径依赖的实施楔形,这一现象可由波动率驱动的持有成本与交易摩擦从定量上予以解释。
本文证明,从 PPO 的轨迹中随机丢弃固定比例(具体为 25%)的转移,能够有效打破因果链式梯度的冗余,从而在不改变核心算法或不牺牲最终奖励性能的情况下,稳定跨多样化环境的训练动态。
本文提出一个统一的控制论框架,将认知过程建模为反馈驱动的动力系统,通过结合内部变换、解释性映射和语义等价约束,并借助范畴论与不动点分析,确保获得稳定且不变的诠释。
本文提出了一种基于TESS光变曲线训练的深度学习模型,该模型在识别冷矮星中的类太阳振荡方面达到了99.8%的准确率,成功将数千个候选体筛选至24颗有前景的恒星,从而拓展了主序星和亚巨星星震学探测的前沿。