\$OneMillion-Bench: How Far are Language Agents from Human Experts?

本文提出了\$OneMillion-Bench,一个涵盖法律、金融、工业、医疗和自然科学五大领域的专家级基准测试,旨在通过评估语言智能体在权威信息检索、矛盾证据处理及专业规则应用等复杂场景中的表现,衡量其从聊天助手向具备专业深度与可靠性的长程智能体迈进的程度。

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

该论文提出了 CMMR-VLN 框架,通过构建基于全景视觉和显著地标的多模态经验记忆库、引入检索增强生成机制以及实施基于反思的记忆更新策略,有效弥补了现有大语言模型在长程和陌生场景下缺乏选择性调用先验经验能力的不足,显著提升了视觉语言导航任务的成功率。

Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma2026-03-10💻 cs

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

本文提出了一种名为“拖曳感知气动操纵性(DAAM)”的几何框架,通过引入基于剩余对称加速度能力的黎曼度量,将电机扭矩限制与气动阻力显式纳入冗余多旋翼飞行器的控制分配中,从而生成一种对广义力空间坐标缩放具有不变性、能自动规避阻力饱和并解析其全局跳变不连续性的状态相关最优分配策略。

Antonio Franchi2026-03-10🔢 math

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

该论文提出了一种名为 ViSA 的视觉 - 空间推理增强框架,通过三阶段协作架构利用结构化视觉提示使视觉语言模型直接在图像平面上进行推理,从而克服了现有空中视觉语言导航方法在空间推理和语言歧义方面的瓶颈,并在 CityNav 基准测试中实现了比最先进方法高出 70.3% 的成功率。

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

本文提出了名为 MambaDance 的新方法,通过利用 Mamba 架构替代 Transformer 构建两阶段扩散模型,并结合高斯节拍表示来显式引导解码,从而在 AIST++ 和 FineDance 数据集上生成了从短到长序列均能精准捕捉舞蹈节奏性与音乐同步性的逼真舞蹈动作。

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

该论文提出了 DyLLM,一种无需训练的推理框架,通过检测相邻去噪步骤间注意力上下文的余弦相似度来识别“显著令牌”,并仅对这些令牌重新计算注意力与前馈操作,从而在保持精度的同时将掩码扩散语言模型的吞吐量提升最高达 9.6 倍。

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

该论文针对真实场景下的表情识别挑战,提出了一种结合安全交叉注意力机制与模态丢弃策略的鲁棒多模态 Transformer 框架,通过动态融合视听特征及优化长尾分布,在 Aff-Wild2 验证集上实现了 60.79% 的准确率和 0.5029 的 F1 分数。

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

该论文提出了一种名为“上下文强化学习”(ICRL)的新框架,通过仅在强化学习阶段利用逐步减少的少样本提示来训练大语言模型使用外部工具,从而在无需监督微调(SFT)的情况下实现了高效且可扩展的工具调用能力,并在多项基准测试中取得了最先进的性能。

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

本文提出了 DSH-Bench,这是一个包含分层主题分类、细粒度难度与场景评估体系以及高相关性一致性指标(SICS)的综合基准,旨在通过系统性的多维度分析克服现有主体驱动文生图模型评估的局限性,并为后续模型优化提供关键指导。

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

该论文提出了 DC-W2S 框架,通过结合自一致性指标与嵌入空间邻域一致性指标来筛选高可靠性监督信号,并采用课程学习策略,实现了在无需大量专家标注的情况下利用含噪弱监督数据训练出可靠的生物推理过程奖励模型。

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

本文针对现有搜索代理难以获取未被搜索引擎索引信息(UIS)的局限,提出了首个 UIS 基准测试 UIS-QA 及名为 UIS-Digger 的多智能体框架,通过双模式浏览和文件解析能力,在仅使用约 300 亿参数模型的情况下显著超越了包含 O3 和 GPT-4.1 在内的先进系统,为构建全面的信息搜索代理开辟了新方向。

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs