Emergence is Overrated: AGI as an Archipelago of Experts
该论文通过论证人类智能本质上依赖于领域特定的模式积累而非抽象压缩,反驳了“涌现智能”的必要性,并提出应将通用人工智能(AGI)重新概念化为由无数孤立专家模块组成的“专家群岛”。
11817 篇论文
该论文通过论证人类智能本质上依赖于领域特定的模式积累而非抽象压缩,反驳了“涌现智能”的必要性,并提出应将通用人工智能(AGI)重新概念化为由无数孤立专家模块组成的“专家群岛”。
本文提出了\$OneMillion-Bench,一个涵盖法律、金融、工业、医疗和自然科学五大领域的专家级基准测试,旨在通过评估语言智能体在权威信息检索、矛盾证据处理及专业规则应用等复杂场景中的表现,衡量其从聊天助手向具备专业深度与可靠性的长程智能体迈进的程度。
该论文提出了 CMMR-VLN 框架,通过构建基于全景视觉和显著地标的多模态经验记忆库、引入检索增强生成机制以及实施基于反思的记忆更新策略,有效弥补了现有大语言模型在长程和陌生场景下缺乏选择性调用先验经验能力的不足,显著提升了视觉语言导航任务的成功率。
本文提出了一种名为“拖曳感知气动操纵性(DAAM)”的几何框架,通过引入基于剩余对称加速度能力的黎曼度量,将电机扭矩限制与气动阻力显式纳入冗余多旋翼飞行器的控制分配中,从而生成一种对广义力空间坐标缩放具有不变性、能自动规避阻力饱和并解析其全局跳变不连续性的状态相关最优分配策略。
该论文提出了一种名为 ViSA 的视觉 - 空间推理增强框架,通过三阶段协作架构利用结构化视觉提示使视觉语言模型直接在图像平面上进行推理,从而克服了现有空中视觉语言导航方法在空间推理和语言歧义方面的瓶颈,并在 CityNav 基准测试中实现了比最先进方法高出 70.3% 的成功率。
该论文提出了 PIRA-Bench 基准和 PIRF 框架,旨在推动 GUI 智能体从依赖显式指令的被动响应模式,向能够基于连续视觉输入主动预测用户意图并提供推荐的新范式转变。
该论文提出了 FedMomentum 框架,通过奇异值分解(SVD)在联邦微调中实现数学正确且保留训练动量的 LoRA 聚合,从而解决了现有方法因噪声或结构表达受限导致的收敛慢和性能差问题。
该论文通过“任务”与“意图”两个互补视角,重构了对对齐、过程结构与结果质量之间动态关系的理解,旨在超越简单的线性对应,为人类、AI 及人机协作提供统一的动态分析框架。
本文提出了名为 MambaDance 的新方法,通过利用 Mamba 架构替代 Transformer 构建两阶段扩散模型,并结合高斯节拍表示来显式引导解码,从而在 AIST++ 和 FineDance 数据集上生成了从短到长序列均能精准捕捉舞蹈节奏性与音乐同步性的逼真舞蹈动作。
该论文提出了 DyLLM,一种无需训练的推理框架,通过检测相邻去噪步骤间注意力上下文的余弦相似度来识别“显著令牌”,并仅对这些令牌重新计算注意力与前馈操作,从而在保持精度的同时将掩码扩散语言模型的吞吐量提升最高达 9.6 倍。
本文提出了 GCGNet(图一致性生成网络),通过变分生成器、图结构对齐器和图细化器的协同作用,有效建模了含外生变量的时间序列中时空与通道间的联合相关性,并在抗噪性和预测精度上优于现有最先进方法。
该论文针对真实场景下的表情识别挑战,提出了一种结合安全交叉注意力机制与模态丢弃策略的鲁棒多模态 Transformer 框架,通过动态融合视听特征及优化长尾分布,在 Aff-Wild2 验证集上实现了 60.79% 的准确率和 0.5029 的 F1 分数。
本文提出了 CDRRM 框架,通过“对比后合成”范式生成高质量、上下文感知的评分标准,在仅需少量数据的情况下显著提升了奖励模型的性能、可解释性并有效缓解了评估偏差。
该论文提出了一种名为 S2S-FDD 的故障诊断框架,通过设计信号转语义算子将工业时序数据转化为自然语言摘要,并结合多轮树状诊断方法,实现了能够回答“为何”及“如何修复”等关键问题的可解释性零样本故障诊断。
Speed3R 是一种受运动恢复结构(SfM)启发的端到端可训练模型,它通过双分支注意力机制仅对最具信息量的图像令牌进行细粒度关注,从而在保持几何精度的同时,将 1000 视图序列的推理速度提升了 12.4 倍,有效解决了现有前馈 3D 重建模型因稠密注意力机制导致的二次复杂度瓶颈。
本文提出了 ImageEdit-R1,一种利用强化学习协调多个专用智能体进行高层决策的多智能体框架,通过将图像编辑视为序列决策问题,有效解决了现有模型在处理复杂、多步指令时的局限性,并在多项实验中超越了闭源扩散模型及其他基线方法。
该论文提出了一种名为“上下文强化学习”(ICRL)的新框架,通过仅在强化学习阶段利用逐步减少的少样本提示来训练大语言模型使用外部工具,从而在无需监督微调(SFT)的情况下实现了高效且可扩展的工具调用能力,并在多项基准测试中取得了最先进的性能。
本文提出了 DSH-Bench,这是一个包含分层主题分类、细粒度难度与场景评估体系以及高相关性一致性指标(SICS)的综合基准,旨在通过系统性的多维度分析克服现有主体驱动文生图模型评估的局限性,并为后续模型优化提供关键指导。
该论文提出了 DC-W2S 框架,通过结合自一致性指标与嵌入空间邻域一致性指标来筛选高可靠性监督信号,并采用课程学习策略,实现了在无需大量专家标注的情况下利用含噪弱监督数据训练出可靠的生物推理过程奖励模型。
本文针对现有搜索代理难以获取未被搜索引擎索引信息(UIS)的局限,提出了首个 UIS 基准测试 UIS-QA 及名为 UIS-Digger 的多智能体框架,通过双模式浏览和文件解析能力,在仅使用约 300 亿参数模型的情况下显著超越了包含 O3 和 GPT-4.1 在内的先进系统,为构建全面的信息搜索代理开辟了新方向。