Stochastic Self-Organization in Multi-Agent Systems
本文提出了名为 SelfOrg 的框架,通过让大语言模型多智能体基于响应条件动态评估贡献并构建有向无环图来自组织通信结构,从而在无需额外监督或训练的情况下显著提升协作效率,特别是在弱模型场景下表现优异。
6649 篇论文
本文提出了名为 SelfOrg 的框架,通过让大语言模型多智能体基于响应条件动态评估贡献并构建有向无环图来自组织通信结构,从而在无需额外监督或训练的情况下显著提升协作效率,特别是在弱模型场景下表现优异。
本文提出了一种名为 CroSTAta 的跨状态转换注意力 Transformer,通过引入新颖的状态转换注意力(STA)机制并结合训练时的时序掩码策略,使机器人策略能够显式建模演示中的时序结构(如失败与恢复模式),从而在模拟环境中显著提升了处理执行变化及精密任务的能力。
本文提出了一种基于双重投影的动态变分自编码器新方法,能够从观测数据中同时估计系统状态轨迹和噪声时间序列,从而在低维状态空间中实现多步演化,并通过六个基准测试验证了其在随机与确定性动力学建模中的有效性。
本文提出了一种基于大语言模型智能体的自动化工作流,成功从约 1 万篇科学文献中提取并构建了迄今为止规模最大的热电材料数据集,不仅显著降低了大规模数据提取的成本,还为数据驱动的材料发现奠定了坚实基础。
该论文提出了 DialTree 框架,这是一种结合树搜索的在线策略强化学习方法,能够自主探索多轮对话中的复杂攻击轨迹,在无需人工数据的情况下显著提升了针对大语言模型的多轮红队攻击成功率。
该研究利用 GPT-4o 等大语言模型从塞内加尔法律文本(特别是《土地与公共领域法典》)中提取并结构化近 8000 条条款,构建了包含数千节点与关系的知识图谱,旨在提升司法信息的可访问性并帮助公众及法律专业人士更好地理解其权利与义务。
该论文通过合成数据集研究发现,现有的基于图的表格深度学习(GTDL)方法虽旨在通过建模特征交互来提升预测,却未能有效恢复真实的图结构,而强制引入真实交互结构后预测性能显著提升,从而强调了准确建模图结构对于提升预测精度的关键作用。
该论文提出了一种基于 Wasserstein 梯度流的新型算法,通过时间离散化和最小批量最优传输,实现了可扩展且支持模块化正则化及监督信息整合的概率测度巴氏中心计算,并在多个领域的基准测试中确立了新的最先进水平。
该论文提出了一种针对机器人运动控制的预训练 - 微调范式,通过任务无关的探索数据训练本体感知逆动力学模型(PIDM)来初始化 PPO 等演员 - 评论家算法,从而在多种机器人环境中显著提升了样本效率(平均 36.9%)和任务性能(平均 7.3%)。
该论文提出了 ARM-FM 框架,利用基础模型将自然语言规范自动转化为奖励机器(Reward Machines),从而在强化学习中实现可组合的任务分解、基于语言嵌入的泛化以及零样本适应能力。
该论文揭示了在强化学习训练中,大型语言模型会发展出系统性的动机推理,即生成看似合理的理由来为其违反指令的行为辩护,从而导致依赖思维链进行监控的小型模型被误导,无法有效识别有害行为。
该论文提出了一种基于自适应专家路由的可解释异质异常检测框架,通过构建压力调制图并分解四种特定机制(价格冲击、流动性、系统性传染和动量反转),实现了对金融网络中不同危机驱动因素的自动归因与可解释预警,在 2017 至 2024 年美股数据上显著优于基线模型并成功区分了 SVB 倒闭与日本套息交易平仓等不同类型的危机。
该论文提出了一种基于排列相对策略优化(PRPO)的推理框架,通过将列置换不变性作为结构先验,有效激活了大语言模型在表格预测任务中的潜在数值推理能力,使其在零样本设置下表现优异,甚至显著超越了参数量大得多的模型。
该论文提出了一种名为 RobLight 的工具,通过用高效的(多项式时间但可能不完备的)部分求解器替代现有的强大求解器,显著提升了图神经网络在结构鲁棒性验证方面的性能。
该论文提出了一个形式化的零样本强化学习统一框架,通过从表示(组合式与直接式)和学习范式(无奖励与伪无奖励)两个维度构建算法分类体系,并将总误差分解为推理、奖励和近似三个组成部分,从而实现了对现有方法的严谨比较与统一分析。
本文提出了 SwiftTS 框架,通过利用多任务元学习、轻量级双编码器架构及跨任务跨数据集采样策略,实现了无需对所有候选模型进行独立微调即可高效、鲁棒地选择时间序列预训练模型。
该论文提出了一种名为“Mercer 先验”的新方法,通过利用协方差核的 Mercer 表示直接在神经网络参数上定义先验分布,使贝叶斯神经网络能够生成近似高斯过程的样本,从而在保持可扩展性的同时实现具有可解释性的不确定性量化。
本文针对大语言模型推荐系统在持续学习中的挑战,提出了一种名为 PESO 的新方法,该方法通过引入将当前适配器锚定在最近冻结状态的近端正则化器,有效平衡了模型对新用户行为的适应与对旧知识的保留,从而在持续学习场景下显著优于现有基于 LoRA 的方法。
本文通过对比 ANFIS-FBCSP-PSO 可解释性模糊模型与 EEGNet 深度学习模型在 BCI 竞赛数据集上的表现,揭示了前者在单被试场景下精度更优而后者在跨被试泛化能力更强的特性,从而为根据可解释性或鲁棒性需求选择 MI-BCI 系统提供了实践指导。
本文提出了一种面向移动边缘计算的网络化混合专家(NMoE)系统,通过客户端基于专业能力的协同推理以及结合监督与自监督学习的联邦训练框架,有效解决了大模型在资源受限边缘设备上的训练与部署难题。