Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core
本文提出了名为 CORA 的基于合作博弈论核心分配的多智能体强化学习信用分配方法,通过评估联盟边际贡献并结合截断双 Q 学习来高效估算联盟优势,从而解决传统全局优势共享导致的优化不足问题,在多个基准测试中显著提升了多智能体协作性能。
2385 篇论文
本文提出了名为 CORA 的基于合作博弈论核心分配的多智能体强化学习信用分配方法,通过评估联盟边际贡献并结合截断双 Q 学习来高效估算联盟优势,从而解决传统全局优势共享导致的优化不足问题,在多个基准测试中显著提升了多智能体协作性能。
该论文提出了名为 ChannelTokenFormer 的 Transformer 框架,旨在通过统一处理通道依赖、异步采样和缺失值这三大现实挑战,显著提升多变量时间序列预测在复杂真实场景下的鲁棒性与准确性。
该论文提出了一种名为 ConLID 的有监督对比学习方法,旨在通过学习域不变表示来解决低资源语言在单一领域数据(如《圣经》)上表现不佳的问题,从而在保持高资源语言性能的同时,显著提升了低资源语言在跨域数据上的语言识别准确率。
本文介绍了 OPENXRD,这是一个针对大语言模型和 multimodal 大语言模型在晶体学问答任务中评估其上下文信息整合能力的综合基准框架,通过包含 217 道专家审定 XRD 问题的闭卷与开卷测试,揭示了模型规模、内容质量对知识整合效果的关键影响。
该论文提出数学问题解决是一个信念更新循环,区分了优化既有语言搜索的“隐性概念”与引入新表达方式的“显性概念”,并论证后者是数学发现的核心特征,而当前 AI 系统仅具备前者,缺乏创造显性概念的能力。
本文提出了名为 QSpark 的框架,通过利用富含标注的合成数据集对 Qwen2.5-Coder-32B 模型进行 GRPO 和 ORPO 强化学习微调,显著提升了其在 Qiskit 代码生成任务(特别是 Qiskit HumanEval 基准)上的可靠性与性能,尽管在高级任务上仍存在改进空间。
该论文提出了一种名为“潜在策略引导”(LPS)的方法,通过利用光流作为跨具身无关的动作表示来预训练世界模型,并结合目标具身的小规模演示数据进行微调与价值函数学习,从而在低数据场景下显著提升了机器人视觉运动策略的性能。
该论文提出了 MMGraphRAG 框架,通过引入基于谱聚类的 SpecLink 方法将视觉场景图与文本知识图谱深度融合,并发布了 CMEL 数据集,有效解决了现有 GraphRAG 难以构建细粒度多模态知识图谱的问题,从而在复杂多模态场景下显著提升了检索增强生成的性能与可解释性。
该研究提出了一种结合新闻数据与社交媒体画像的 LLM 智能体框架,通过事实提取、魔鬼代言人模拟及反事实暴露三种去偏机制,探究了媒体对中美态度的影响,发现“魔鬼代言人”机制在模拟人类认知和缓解偏见方面最为有效,同时揭示了不同大模型因地理起源而存在的固有偏见差异。
该论文提出了一种名为 SFDA-PFT 的轻量级无源域自适应方法,通过在潜在空间中利用预训练的特征翻译器将源域风格映射到仅含中性表情的目标域数据,从而在无需源数据或图像合成的隐私敏感场景下实现了高效的面部表情识别。
本文介绍了名为"AI Blob!"的实验系统,该系统受意大利电视节目《Blob》启发,利用大语言模型、自动语音识别和检索增强生成技术,对意大利电视档案进行语义编目与动态重组,从而自动生成具有讽刺性并置和主题连贯性的叙事蒙太奇,为媒体史研究与 AI 驱动的档案探索提供了新的方法论框架。
本文提出了 EgoCross 基准,旨在通过涵盖手术、工业、极限运动和动物视角等四个高影响力跨域场景的评测,揭示现有多模态大语言模型在 egocentric 视频问答任务中面对域偏移时的泛化局限性,并为构建更鲁棒的领域自适应视频理解系统奠定基础。
该论文提出了一种利用开源工具 HeyGem 将课程大纲转化为虚拟化身演唱歌曲的创新方法,旨在通过更具吸引力的视听形式提升学生对课程信息的关注度、情感连接及记忆效果。
本文提出了 TaoSR1 框架,通过结合思维链监督微调、偏好优化及基于难度的动态采样策略,成功解决了大语言模型在电商搜索相关性任务中面临的推理错误累积、判别幻觉及部署可行性等挑战,显著提升了离线与在线评估表现。
本文提出了 CMASE 框架,该框架通过将生成式智能体建模与虚拟民族志方法相结合,使研究者能够作为嵌入参与者实时干预虚拟社会环境,从而在保持实证准确性的同时,实现对复杂社会现象的机制性解释与因果预测。
本文提出了 VistaWise,一种通过构建跨模态知识图谱并微调专用目标检测模型,仅需数百样本即可在 Minecraft 中实现低成本、高性能的具身智能体框架。
该论文提出了 SEER 框架,通过结合 Best-of-N 采样与任务感知自适应过滤来动态压缩思维链(CoT),在显著降低计算延迟和内存开销的同时,有效提升了大型语言模型在软件工程及数学任务中的准确性与鲁棒性。
该论文展示了利用 AlphaEvolve(一种大语言模型代码变异代理)在复杂性理论中取得的新进展,包括改进随机正则图上的认证算法界限、发现新的归约装置以提升 MAX-CUT 和 TSP 等组合优化问题的不可近似性下界,并通过 AI 辅助优化验证过程来克服构造验证的计算成本。
本文提出了 VSSFlow,一种基于流匹配的联合学习框架,通过引入解耦条件聚合机制,成功统一了视频到声音和视频文本到语音生成任务,并在端到端联合训练中实现了超越现有专用基线的性能。
本文提出了 VoiceBridge,一种基于能量保持变分自编码器、联合神经先验及桥接训练目标的一步潜在桥接模型,能够利用单一潜在生成过程高效恢复从去噪、超分到合成语音优化等多种失真场景下的高质量全频带语音。