Context Engineering: From Prompts to Corporate Multi-Agent Architecture
该论文提出从提示工程演进为包含上下文工程、意图工程和规格工程的四层成熟度模型,旨在通过系统化设计信息环境、组织目标及机器可读规范,解决企业多智能体系统在规模化部署中面临的复杂性与控制难题。
118 篇论文
该论文提出从提示工程演进为包含上下文工程、意图工程和规格工程的四层成熟度模型,旨在通过系统化设计信息环境、组织目标及机器可读规范,解决企业多智能体系统在规模化部署中面临的复杂性与控制难题。
本文提出了 FetalAgents,这是首个用于胎儿超声图像和视频分析的多智能体系统,它通过轻量级协调框架动态调度专业视觉模型,实现了从多平面关键帧识别、结构化测量到生成可审计临床报告的全流程自动化,并在多项临床任务中展现出超越专用模型和多模态大语言模型的鲁棒性与准确性。
该论文提出了一种名为“能力一致性系统”(CCS)的新框架,通过将内存一致性模型(如 MESI)映射到身份授权场景,证明了基于发布一致性(RCC)的撤销策略在高速代理执行环境中能将未授权操作数量从时间依赖的线性增长降低至与代理速度无关的常数级,从而在根本上解决了传统基于时间窗口的访问控制机制在大规模并发下的安全性失效问题。
该论文提出了一种无需训练的参数化提示框架,通过将提示视为基于智能体状态动态构建的“动作”,成功实现了对大语言模型多智能体对话行为(如反驳、证据使用及立场转变)的有效引导,为社交模拟方向的多智能体系统研究提供了新思路。
该研究通过将情感效价和唤醒度作为调节因子扩展“蜜蜂方程”,构建了一个基于智能体的群体决策模型,揭示了情感动态如何通过改变招募与抑制机制来影响群体共识的形成速度、结果偏差及非线性放大效应。
本文综述了基于效用理论的认知建模在机器人领域的应用,探讨了从行为基机器人到价值系统的演进、其在单/多智能体及人机交互中的作用,并提出了未来的研究方向与开放性问题。
该论文研究了在无直接竞争信息的情况下,基于多臂老虎机的算法代理如何在重复囚徒困境中通过行动同步性自发形成“朴素合谋”,并发现这种合谋现象的发生与否高度依赖于所采用的行为策略(确定性算法必然导致合谋,而持续随机算法则能避免)。
该论文揭示了多模态大语言模型(MLLM)作为验证器时普遍存在的“同意偏差”问题,并提出了一种名为自我 grounded 验证(SGV)的两步生成方法,通过先独立生成行为先验再评估轨迹,显著提升了验证准确性及智能体在网页导航、计算机操作和机器人等领域的任务完成表现。
该研究通过大规模实验揭示了行为推断中的根本不对称性:动机推断准确率高达 98-100%,而信念系统推断受限于架构和信息理论瓶颈(LSTM 仅 24%,Transformer 最高 49%),导致在复杂行为序列中难以准确区分代理的内在信念。
本文提出了名为 SelfOrg 的框架,通过让大语言模型多智能体基于响应条件动态评估贡献并构建有向无环图来自组织通信结构,从而在无需额外监督或训练的情况下显著提升协作效率,特别是在弱模型场景下表现优异。
本文提出了 FOR-Prompting 协议,通过让“辩护者”提出答案、由“辩论者”仅提出质疑而不直接修正的不对称提示机制,在不依赖模型训练或内部访问的情况下,有效提升了各类大语言模型(尤其是小模型)在数学推理及开放任务中的自我修正能力与输出质量。
本文提出了 CRAwDAD 框架,通过让两个推理语言模型在因果推断任务中进行结构化辩论与相互说服,显著提升了包括 DeepSeek-R1 和 Qwen3 在内的模型在 CLadder 基准测试中的准确率,特别是大幅改善了反事实推理的表现。
该论文提出了名为 MAS-Orchestra 的训练框架,通过将多智能体编排建模为函数调用强化学习问题来实现全局系统推理,并引入 MASBENCH 基准从五个维度严格评估任务特性,从而揭示了多智能体系统的收益取决于任务结构而非普遍适用,最终在数学推理等任务中实现了显著的性能提升与效率优化。
本文提出了名为 LatentMem 的可学习多智能体记忆框架,通过引入经验库、记忆合成器及 Latent Memory 策略优化(LMPO)技术,有效解决了现有系统中记忆同质化与信息过载问题,实现了无需修改底层框架即可显著提升多智能体系统性能的定制化记忆机制。
该论文利用 CityLearn 环境构建了一个涵盖多关键性能指标(KPI)的基准测试,通过对比不同训练架构和神经网络的 MARL 算法,发现去中心化训练在平均表现、最坏情况性能及电池寿命等实际挑战上优于集中式训练,并揭示了策略在应对资源移除时的鲁棒性。
该论文通过构建一系列逐步增加复杂度的多智能体干扰博弈任务,利用大规模 SUMO 生成数据集系统解耦并评估了 C-V2X 网络中多智能体深度强化学习资源分配面临的关键挑战,发现策略在多样化车辆拓扑下的鲁棒性与泛化能力是主要瓶颈,并开源了代码与基准测试套件以推动该领域的可复现研究。
该研究通过评估四种多智能体拓扑结构在 302 个罕见病诊断案例中的表现,发现层级结构略优于其他配置,而对抗性结构因引入人为怀疑导致推理差距巨大且性能显著下降,表明增加系统复杂性并不必然提升推理能力,从而支持采用动态拓扑选择策略。
本文研究了对手存在下、玩家间无共享随机源且彼此独立的并发图博弈,证明了阈值判定问题属于实数存在理论()且为 NP 难,几乎必然可达性判定为 NP 完全,并提出了适用于此类分布随机化场景的 IRATL 逻辑及相应求解算法。
本文提出了基于坎贝尔“盲变与选择性保留”理论的多角色协作系统 NarrativeLoom,通过让 AI 生成多样化叙事选项并由用户筛选,显著提升了合作创作故事在专家评估中的流畅性、灵活性、原创性和精致度等创造力维度,且该系统对写作新手尤为有益。
该论文针对具有异质目标的智能体协作场景,提出了一种结合模仿学习与强化学习的分层方法,使智能体能够自主判断何时合作或单独行动,从而在扩展的协作环境中显著优于基线方法。