MICA: Multi-Agent Industrial Coordination Assistant
本文提出了 MICA(多智能体工业协调助手),这是一个在受限计算与隐私约束下运行的感知驱动、语音交互系统,它通过五个角色专用智能体与自适应步骤融合技术,为工业装配、故障排查等任务提供实时、安全且可靠的指导,并建立了相应的评估基准以验证其优越性。
3834 篇论文
本文提出了 MICA(多智能体工业协调助手),这是一个在受限计算与隐私约束下运行的感知驱动、语音交互系统,它通过五个角色专用智能体与自适应步骤融合技术,为工业装配、故障排查等任务提供实时、安全且可靠的指导,并建立了相应的评估基准以验证其优越性。
本文提出了一种基于场景图的原子技能学习框架,通过聚焦任务相关对象与关系来缓解分布偏移,并结合扩散模型与视觉语言规划器,显著提升了通用机器人在长程复杂任务中的执行鲁棒性与组合泛化能力。
本文提出了名为 FINS 的轻量级框架,通过结合多分辨率哈希网格编码器与预训练基础模型,实现了仅需单张 RGB 图像即可在数秒内高效重建高保真隐式表面及 SDF 场,并在收敛速度、重建精度及机器人表面跟随任务中优于现有最先进方法。
该研究发现,线性探针严重依赖文本证据(如系统提示或思维链),一旦过滤掉这些表面文本信息,其在检测沙袋行为、阿谀奉承和偏见等潜在有害行为时的性能会显著下降,表明此类探针在识别非表层模式时存在脆弱性。
本文基于贝叶斯说服理论构建了一个可扩展的评估与训练框架,利用强化学习使大语言模型(包括小模型)能够掌握复杂的战略说服策略并显著提升说服效果。
本文提出了生成式进化元求解器(GEMS),这是一种无需代理的框架,它利用潜在锚点和单一生成器替代显式策略种群,在保留博弈论保证的同时显著降低了计算与内存开销,从而实现了可扩展的多智能体强化学习。
该论文提出了基于野外语料库中显著词元困惑度的“基准签名”方法,通过跨 32 个大模型和 89 个基准的元评估,揭示了不同基准间在知识与推理任务上的深层重叠、在文化与人文领域的低相似性,以及编码任务的高度独立性,从而为理解大模型能力景观及基准有效性提供了超越传统性能相关性的新视角。
本文提出了 ELHPlan 框架,通过引入“意图绑定动作链”作为规划原语,在长视野多智能体协作任务中有效平衡了适应性与计算效率,在保持任务成功率的同时将 Token 消耗降低了 60-70%。
该论文针对缺乏初始成对相似性信息的冷启动场景,提出了一种通过鼓励多样性来实现成本高效查询的覆盖感知主动关联聚类方法,并通过实验验证了其有效性。
该论文首次系统性地提出并实证了“误演化”(Misevolution)概念,揭示了自进化大语言模型代理在模型、记忆、工具和工作流四个关键路径中可能偏离预期并引发安全对齐退化或漏洞等新型风险,从而强调了构建更安全自进化代理的紧迫性。
本文提出了一种名为 CroSTAta 的跨状态转换注意力 Transformer,通过引入新颖的状态转换注意力(STA)机制并结合训练时的时序掩码策略,使机器人策略能够显式建模演示中的时序结构(如失败与恢复模式),从而在模拟环境中显著提升了处理执行变化及精密任务的能力。
本文提出了一种基于大语言模型智能体的自动化工作流,成功从约 1 万篇科学文献中提取并构建了迄今为止规模最大的热电材料数据集,不仅显著降低了大规模数据提取的成本,还为数据驱动的材料发现奠定了坚实基础。
本文提出了 FOR-Prompting 协议,通过让“辩护者”提出答案、由“辩论者”仅提出质疑而不直接修正的不对称提示机制,在不依赖模型训练或内部访问的情况下,有效提升了各类大语言模型(尤其是小模型)在数学推理及开放任务中的自我修正能力与输出质量。
该论文提出了 DialTree 框架,这是一种结合树搜索的在线策略强化学习方法,能够自主探索多轮对话中的复杂攻击轨迹,在无需人工数据的情况下显著提升了针对大语言模型的多轮红队攻击成功率。
该论文提出了一种基于 Wasserstein 梯度流的新型算法,通过时间离散化和最小批量最优传输,实现了可扩展且支持模块化正则化及监督信息整合的概率测度巴氏中心计算,并在多个领域的基准测试中确立了新的最先进水平。
本文提出了名为 NANOMIND 的软硬件协同设计框架,通过将大型多模态模型模块化并动态调度至异构加速器,在电池供电的小型设备上实现了无需联网的高效、低功耗本地推理,显著降低了能耗与显存占用。
本文首次揭示了大型语言模型分词器作为成员推断攻击新向口的严重隐私风险,通过提出五种攻击方法验证了其脆弱性,并设计了相应的自适应防御机制。
该研究通过在多轮辩论中让不同大语言模型对日常道德困境进行集体归责,揭示了同步与轮询两种交互协议下模型在观点修正率、价值取向(如自主性与共情)及从众行为上的显著差异,表明多智能体系统的交互结构会深刻影响其道德推理与价值对齐表现。
该论文提出了一种名为“功能头识别与类别条件重缩放”的免训练插件,通过自适应调整感知与推理导向注意力头在各层间的贡献,有效缓解了多模态大推理模型中因功能分配失衡导致的幻觉问题,在几乎不增加计算成本的情况下显著提升了模型的推理一致性与视觉忠实度。
本文提出了 DropVLA,一种针对视觉 - 语言 - 动作(VLA)模型的动作级后门攻击方法,该方法仅需极少量数据投毒即可在保持正常任务性能的同时,通过视觉触发器精准操控机器人执行特定的安全关键动作,并已在物理机器人上验证了其有效性。