Adaptive Social Learning via Mode Policy Optimization for Language Agents
本文提出了自适应社会学习(ASL)框架及其核心算法自适应模式策略优化(AMPO),通过引入基于认知控制理论的多粒度推理模式与上下文感知的模式切换机制,实现了语言代理在动态社会交互中高效且灵活的深度推理,显著提升了任务性能并大幅降低了 Token 消耗。
1332 篇论文
本文提出了自适应社会学习(ASL)框架及其核心算法自适应模式策略优化(AMPO),通过引入基于认知控制理论的多粒度推理模式与上下文感知的模式切换机制,实现了语言代理在动态社会交互中高效且灵活的深度推理,显著提升了任务性能并大幅降低了 Token 消耗。
本文提出了名为"Talk-to-Your-Slides"的高效演示文稿编辑代理,该方法通过语言驱动的结构化数据操作而非视觉模态来直接修改底层对象模型,从而在文本与格式任务中实现了比基于 GUI 的基线方法更快的处理速度、更高的指令遵循度及更低的成本,并配套发布了包含 379 条指令的 TSBench 基准数据集。
本文提出了 PC Agent-E 框架,通过利用 Claude 3.7 Sonnet 将仅 312 条人工标注轨迹扩展为多样化合成数据,实现了在 WindowsAgentArena-V2 基准上超越基线模型 141% 的相对提升,并显著优于直接蒸馏方法。
本文提出了名为 REFLEX 的框架,通过将元认知学习(包括技能分解与自我反思)融入大语言模型驱动的多机器人协作中,使其在零样本或少样本设置下能够自主推理、反思失败并创造性地生成新解决方案,从而显著提升了复杂机器人任务的规划能力。
本文提出了一种名为 BitBypass 的新型黑盒越狱攻击方法,该方法利用连字符分隔的比特流伪装技术,通过操纵数据的基础信息表示而非传统的提示工程,成功绕过了包括 GPT-4o 和 Llama 3.1 在内的五种最先进大语言模型的安全对齐机制,并在隐蔽性和攻击成功率上优于现有方法。
DiaBlo 提出了一种仅需更新模型权重矩阵对角块的高效微调方法,该方法在无需低秩分解或特殊初始化策略的情况下,凭借理论保证和实验验证,实现了与全量微调相当的性能,同时保持了与 LoRA 相当的内存效率和训练速度。
本文提出了名为 Go-Browse 的方法,通过将数据收集构建为图搜索问题来实现对网络环境的结构化探索,从而在 WebArena 基准上收集了大规模成功轨迹数据,使 7B 参数语言模型的性能超越了 GPT-4o mini 及当前同类小参数模型的最优水平。
本文提出了 HSSBench,这是一个专为评估多模态大语言模型在人文社科领域跨学科推理能力而设计的多语言基准,通过专家与智能体协作生成的 1.3 万多个样本填补了现有评测体系的空白,并揭示了当前顶尖模型在此类任务上仍面临显著挑战。
本文介绍了大规模、多轮对话且包含人类偏好标注的“搜索竞技场”(Search Arena)数据集,通过揭示引用数量与来源对用户信任度的影响,并验证了搜索增强在不同场景下的性能表现,旨在推动搜索增强大语言模型的研究。
该论文提出了一种名为 ManyICL 的新方法,通过将大量上下文示例同时作为监督目标进行训练,显著缩小了多任务上下文微调与专用微调之间的性能差距,并有效缓解了灾难性遗忘问题。
该论文提出了“分支因子”(Branching Factor)作为衡量大语言模型输出多样性的指标,发现对齐训练通过引导模型进入低熵轨迹显著降低了该因子,从而解释了其对解码策略不敏感的原因,并揭示了思维链推理通过利用生成后期更确定的阶段来增强输出稳定性的机制。
本文提出并训练了首个开源纯右向左自回归语言模型 LEDOM,发现其具备独特的推理能力,并通过结合前向似然与反向后验的“反向奖励”机制,显著提升了模型在数学推理任务中的表现并有效抑制了幻觉。
本文提出了通过人机协同两阶段管道构建的 4000 万规模偏好数据集 SynPref-40M,并据此训练出在多项基准测试中超越现有开源模型、具备广泛对齐能力的 Skywork-Reward-V2 奖励模型系列,证明了高质量数据策展对提升奖励模型性能的关键作用。
本文提出了一种利用大语言模型模拟具有不同中介变量的虚拟受访者,以高效验证心理测量题项构念效度的新框架,并通过在三大心理特质理论上的实验证明了其能有效识别高信度题项。
该论文提出了 ASCoT 方法,通过识别并针对性地修复推理后期更致命的“晚期脆弱性”错误,在显著降低大模型推理 Token 消耗的同时保持了极高的准确率。
本文针对流程工业中因班次日志碎片化而阻碍知识检索的问题,提出了一种结合自然语言推理与语义文本相似性的跨文档共指消解记录链接模型,该模型在链接预测任务中显著优于传统基线,有效提升了数据质量与连通性。
该研究证明,仅利用词元生育率、词元数量及语言元数据等特征,即可在不实际运行翻译系统的情况下,以较高精度预测 GPT-4o 在 203 种语言上的翻译质量。
该论文通过 AfriMMLU 基准测试揭示了词元化效率低下对形态复杂及低资源语言造成的系统性偏见,指出词元膨胀不仅直接降低模型准确率并增加计算成本,还强调了推理模型在缩小语言差距方面的潜力,从而呼吁采用形态感知词元化、公平定价及多语言基准以实现更公平的 NLP。
该研究通过在大型语言模型生成答案前提取激活值并训练线性探针,发现模型内部存在一种能跨分布预测回答正确性及置信度的“预先正确性”信号,尽管该信号在数学推理任务上的泛化能力有限。
本文提出了一种基于词项先验统计的无模型数据过滤方法,作为传统困惑度(PPL)过滤的高效替代方案,在大幅降低计算成本的同时实现了更优的下游任务性能。