Stochastic Self-Organization in Multi-Agent Systems
本文提出了名为 SelfOrg 的框架,通过让大语言模型多智能体基于响应条件动态评估贡献并构建有向无环图来自组织通信结构,从而在无需额外监督或训练的情况下显著提升协作效率,特别是在弱模型场景下表现优异。
1066 篇论文
本文提出了名为 SelfOrg 的框架,通过让大语言模型多智能体基于响应条件动态评估贡献并构建有向无环图来自组织通信结构,从而在无需额外监督或训练的情况下显著提升协作效率,特别是在弱模型场景下表现优异。
本文提出了 FOR-Prompting 协议,通过让“辩护者”提出答案、由“辩论者”仅提出质疑而不直接修正的不对称提示机制,在不依赖模型训练或内部访问的情况下,有效提升了各类大语言模型(尤其是小模型)在数学推理及开放任务中的自我修正能力与输出质量。
该论文提出了 DialTree 框架,这是一种结合树搜索的在线策略强化学习方法,能够自主探索多轮对话中的复杂攻击轨迹,在无需人工数据的情况下显著提升了针对大语言模型的多轮红队攻击成功率。
该论文通过构建魁北克法语和法国大都会法语的习语基准数据集,利用 111 个大语言模型的实验结果揭示了模型在标准法语与方言理解能力上的显著差距,证明了习语理解是衡量方言鸿沟的有效工具。
本文提出了名为 NANOMIND 的软硬件协同设计框架,通过将大型多模态模型模块化并动态调度至异构加速器,在电池供电的小型设备上实现了无需联网的高效、低功耗本地推理,显著降低了能耗与显存占用。
该论文揭示了大语言模型在多跳推理中隐式主语作为查询神经元激活对应值神经元的机制,并据此提出了基于神经元级归因的 ACE 框架,通过精准编辑关键查询 - 值路径显著提升了多跳事实回忆的编辑效果。
该论文针对大语言模型在长程环境模拟中因幻觉和静态知识导致的性能退化问题,提出了通过检索外部教程来增强事实依据的检索增强世界模型(R-WoM),显著提升了计算机使用代理在长程任务中的规划与决策能力。
本文提出了名为 HypoSpace 的诊断套件,通过在因果推断、3D 重建和基因互作等确定性领域中评估大语言模型生成有效、独特且覆盖全面的假设集合的能力,揭示了传统正确性指标无法发现的“模式坍塌”现象,从而为衡量模型在科学问题欠定情境下的创造力提供了新视角。
本文介绍了名为"KrishokBondhu"的语音驱动农业咨询系统,该系统利用检索增强生成(RAG)技术结合 Bengali 语音交互,为孟加拉国农民提供实时、专业的农业指导,并在试点评估中显著提升了回答质量与上下文丰富度。
本文介绍了 SwiftEmbed,这是一个基于 Rust 构建的面向实时应用的静态令牌查找文本嵌入系统,它利用 Potion-base-8M 蒸馏模型实现了 1.12 毫秒的超低延迟和每秒 5 万次请求的高吞吐,在去重和相似度任务中表现优异,同时显著降低了推理成本。
本文介绍了名为"Jr. AI Scientist"的先进自主 AI 科研系统,该系统通过模拟初级研究者的完整工作流程,在基准论文基础上成功生成并验证了具有科学价值的新算法与论文,同时深入评估了其性能优势、当前局限性及潜在风险,为理解 AI 驱动科学探索的现状与未来挑战提供了重要见解。
该论文提出了一种名为 HatePrototypes 的可解释且可迁移的表示方法,仅需每类少量样本即可在无需重复微调的情况下,有效实现显性与隐性仇恨言论的跨任务检测与参数化早期退出。
本文介绍了首个将社会学概念“停止点”转化为可复现 NLP 任务的法语标注语料库 SPOT,该数据集包含 4 万多条与虚假信息相关的 Facebook 评论,并通过基准测试证明微调编码器模型在结合上下文元数据后,能显著优于提示式大语言模型,从而有效识别在线对话中常被忽视的普通关键干预。
该论文指出,尽管通过思维链提示和特定微调策略能部分缓解问题,但现有的多模态大语言模型在跨模态技能组合方面仍存在显著差距,表明该领域仍需进一步研究。
该论文提出了一种名为“隐蔽微调”的新攻击方法,通过分段干扰诱导推理增强型视觉语言模型生成有害思维链,并利用自生成数据在极低资源消耗下高效破坏其安全对齐,同时保持模型的通用推理能力。
该论文提出了名为 Graphectory 的图结构表示法以系统分析智能体软件系统的执行轨迹,通过大规模实证研究揭示了不同模型与提示词下的策略差异,并进一步开发了实时监测与干预机制,显著提升了智能体解决软件工程问题的成功率并缩短了执行路径。
本文提出了名为 SETUP 的英语到统一意义表示(UMR)解析器,通过微调抽象意义表示(AMR)解析器或利用通用依赖(UD)转换器,实现了在 AnCast 和 SMATCH++ 指标上取得显著突破的自动解析性能。
该论文提出了平行解码器 Transformer(PDT),这是一种在冻结主干架构中引入规划器引导的潜在工作空间与同步多流输出协议的模型,通过将并行任务分解从外部提示策略转变为模型内部的协调机制,实现了多流生成间的状态同步、所有权解析及信息等待。
本文提出了 CompanionCast 框架,通过整合多模态事件检测、滚动上下文缓存和空间音频等技术,将多个专用 AI 智能体编排为社交协作者,从而在共享体验(如足球观赛)中显著增强用户的社交临场感与情感共鸣。
这篇论文提出了一种涵盖智能体与工具适应的四范式框架,系统综述了大语言模型智能体在预训练后通过微调、偏好优化、强化学习以及记忆和技能系统实现持续进化的最新进展、权衡与评估实践。