cs.AI 篇论文 | Gist.Science

Emergence is Overrated: AGI as an Archipelago of Experts

该论文通过论证人类智能本质上依赖于领域特定的模式积累而非抽象压缩，反驳了“涌现智能”的必要性，并提出应将通用人工智能（AGI）重新概念化为由无数孤立专家模块组成的“专家群岛”。

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

本文提出了\$OneMillion-Bench，一个涵盖法律、金融、工业、医疗和自然科学五大领域的专家级基准测试，旨在通过评估语言智能体在权威信息检索、矛盾证据处理及专业规则应用等复杂场景中的表现，衡量其从聊天助手向具备专业深度与可靠性的长程智能体迈进的程度。

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

该论文提出了 CMMR-VLN 框架，通过构建基于全景视觉和显著地标的多模态经验记忆库、引入检索增强生成机制以及实施基于反思的记忆更新策略，有效弥补了现有大语言模型在长程和陌生场景下缺乏选择性调用先验经验能力的不足，显著提升了视觉语言导航任务的成功率。

Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma2026-03-10💻 cs

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

本文提出了一种名为“拖曳感知气动操纵性（DAAM）”的几何框架，通过引入基于剩余对称加速度能力的黎曼度量，将电机扭矩限制与气动阻力显式纳入冗余多旋翼飞行器的控制分配中，从而生成一种对广义力空间坐标缩放具有不变性、能自动规避阻力饱和并解析其全局跳变不连续性的状态相关最优分配策略。

Antonio Franchi2026-03-10🔢 math

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

该论文提出了一种名为 ViSA 的视觉 - 空间推理增强框架，通过三阶段协作架构利用结构化视觉提示使视觉语言模型直接在图像平面上进行推理，从而克服了现有空中视觉语言导航方法在空间推理和语言歧义方面的瓶颈，并在 CityNav 基准测试中实现了比最先进方法高出 70.3% 的成功率。

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

该论文提出了 PIRA-Bench 基准和 PIRF 框架，旨在推动 GUI 智能体从依赖显式指令的被动响应模式，向能够基于连续视觉输入主动预测用户意图并提供推荐的新范式转变。

Yuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li2026-03-10💻 cs

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

该论文提出了 FedMomentum 框架，通过奇异值分解（SVD）在联邦微调中实现数学正确且保留训练动量的 LoRA 聚合，从而解决了现有方法因噪声或结构表达受限导致的收敛慢和性能差问题。

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Alignment--Process--Outcome: Rethinking How AIs and Humans Collaborate

该论文通过“任务”与“意图”两个互补视角，重构了对对齐、过程结构与结果质量之间动态关系的理解，旨在超越简单的线性对应，为人类、AI 及人机协作提供统一的动态分析框架。

Haichang Li, Anjun Zhu, Arpit Narechania2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

本文提出了名为 MambaDance 的新方法，通过利用 Mamba 架构替代 Transformer 构建两阶段扩散模型，并结合高斯节拍表示来显式引导解码，从而在 AIST++ 和 FineDance 数据集上生成了从短到长序列均能精准捕捉舞蹈节奏性与音乐同步性的逼真舞蹈动作。

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

该论文提出了 DyLLM，一种无需训练的推理框架，通过检测相邻去噪步骤间注意力上下文的余弦相似度来识别“显著令牌”，并仅对这些令牌重新计算注意力与前馈操作，从而在保持精度的同时将掩码扩散语言模型的吞吐量提升最高达 9.6 倍。

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

本文提出了 GCGNet（图一致性生成网络），通过变分生成器、图结构对齐器和图细化器的协同作用，有效建模了含外生变量的时间序列中时空与通道间的联合相关性，并在抗噪性和预测精度上优于现有最先进方法。

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

该论文针对真实场景下的表情识别挑战，提出了一种结合安全交叉注意力机制与模态丢弃策略的鲁棒多模态 Transformer 框架，通过动态融合视听特征及优化长尾分布，在 Aff-Wild2 验证集上实现了 60.79% 的准确率和 0.5029 的 F1 分数。

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

本文提出了 CDRRM 框架，通过“对比后合成”范式生成高质量、上下文感知的评分标准，在仅需少量数据的情况下显著提升了奖励模型的性能、可解释性并有效缓解了评估偏差。

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

该论文提出了一种名为 S2S-FDD 的故障诊断框架，通过设计信号转语义算子将工业时序数据转化为自然语言摘要，并结合多轮树状诊断方法，实现了能够回答“为何”及“如何修复”等关键问题的可解释性零样本故障诊断。

Baoxue Li, Chunhui Zhao2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Speed3R 是一种受运动恢复结构（SfM）启发的端到端可训练模型，它通过双分支注意力机制仅对最具信息量的图像令牌进行细粒度关注，从而在保持几何精度的同时，将 1000 视图序列的推理速度提升了 12.4 倍，有效解决了现有前馈 3D 重建模型因稠密注意力机制导致的二次复杂度瓶颈。

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

本文提出了 ImageEdit-R1，一种利用强化学习协调多个专用智能体进行高层决策的多智能体框架，通过将图像编辑视为序列决策问题，有效解决了现有模型在处理复杂、多步指令时的局限性，并在多项实验中超越了闭源扩散模型及其他基线方法。

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

该论文提出了一种名为“上下文强化学习”（ICRL）的新框架，通过仅在强化学习阶段利用逐步减少的少样本提示来训练大语言模型使用外部工具，从而在无需监督微调（SFT）的情况下实现了高效且可扩展的工具调用能力，并在多项基准测试中取得了最先进的性能。

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

本文提出了 DSH-Bench，这是一个包含分层主题分类、细粒度难度与场景评估体系以及高相关性一致性指标（SICS）的综合基准，旨在通过系统性的多维度分析克服现有主体驱动文生图模型评估的局限性，并为后续模型优化提供关键指导。

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

该论文提出了 DC-W2S 框架，通过结合自一致性指标与嵌入空间邻域一致性指标来筛选高可靠性监督信号，并采用课程学习策略，实现了在无需大量专家标注的情况下利用含噪弱监督数据训练出可靠的生物推理过程奖励模型。

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

本文针对现有搜索代理难以获取未被搜索引擎索引信息（UIS）的局限，提出了首个 UIS 基准测试 UIS-QA 及名为 UIS-Digger 的多智能体框架，通过双模式浏览和文件解析能力，在仅使用约 300 亿参数模型的情况下显著超越了包含 O3 和 GPT-4.1 在内的先进系统，为构建全面的信息搜索代理开辟了新方向。

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs