Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

本文提出了名为 MambaDance 的新方法,通过利用 Mamba 架构替代 Transformer 构建两阶段扩散模型,并结合高斯节拍表示来显式引导解码,从而在 AIST++ 和 FineDance 数据集上生成了从短到长序列均能精准捕捉舞蹈节奏性与音乐同步性的逼真舞蹈动作。

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

该论文提出了 DyLLM,一种无需训练的推理框架,通过检测相邻去噪步骤间注意力上下文的余弦相似度来识别“显著令牌”,并仅对这些令牌重新计算注意力与前馈操作,从而在保持精度的同时将掩码扩散语言模型的吞吐量提升最高达 9.6 倍。

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

该论文针对真实场景下的表情识别挑战,提出了一种结合安全交叉注意力机制与模态丢弃策略的鲁棒多模态 Transformer 框架,通过动态融合视听特征及优化长尾分布,在 Aff-Wild2 验证集上实现了 60.79% 的准确率和 0.5029 的 F1 分数。

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

该论文提出了一种名为“上下文强化学习”(ICRL)的新框架,通过仅在强化学习阶段利用逐步减少的少样本提示来训练大语言模型使用外部工具,从而在无需监督微调(SFT)的情况下实现了高效且可扩展的工具调用能力,并在多项基准测试中取得了最先进的性能。

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

本文提出了 DSH-Bench,这是一个包含分层主题分类、细粒度难度与场景评估体系以及高相关性一致性指标(SICS)的综合基准,旨在通过系统性的多维度分析克服现有主体驱动文生图模型评估的局限性,并为后续模型优化提供关键指导。

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

该论文提出了 DC-W2S 框架,通过结合自一致性指标与嵌入空间邻域一致性指标来筛选高可靠性监督信号,并采用课程学习策略,实现了在无需大量专家标注的情况下利用含噪弱监督数据训练出可靠的生物推理过程奖励模型。

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

本文针对现有搜索代理难以获取未被搜索引擎索引信息(UIS)的局限,提出了首个 UIS 基准测试 UIS-QA 及名为 UIS-Digger 的多智能体框架,通过双模式浏览和文件解析能力,在仅使用约 300 亿参数模型的情况下显著超越了包含 O3 和 GPT-4.1 在内的先进系统,为构建全面的信息搜索代理开辟了新方向。

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

SaiVLA-0 提出了一种受神经科学启发的“大脑 - 脑桥 - 小脑”三分架构,通过冻结的高层多模态先验、实时意图整合适配器及并行快速控制解码器,实现了计算感知、模块化且高效的视觉 - 语言 - 动作系统,并在 LIBERO 基准测试中显著提升了训练效率与任务成功率。

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Gradually Excavating External Knowledge for Implicit Complex Question Answering

该论文提出了一种渐进式外部知识挖掘框架,使大语言模型能够通过迭代选择查询外部知识或执行逻辑推理等动作来动态解决开放域隐式复杂问答问题,并在 StrategyQA 数据集上以极少的参数量实现了 78.17% 的准确率,刷新了约 100 亿参数规模模型的最优性能。

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

本文提出了一种基于混合 1D-CNN-GRU 模型并结合多种可解释性 AI 技术的智能故障检测与诊断方法,旨在解决汽车软件系统验证中黑盒模型缺乏可解释性的问题,从而提升故障根因分析能力并增强实时安全关键应用中的模型置信度。

Mohammad Abboush, Ehab Ghannoum, Andreas Rausch2026-03-10💻 cs

Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data

本文介绍了“条件洞察代理”(Condition Insight Agent),这是一个已部署的决策支持框架,它通过整合异构数据(如文本工单、传感器数据和结构化故障知识)并采用确定性证据构建与规则验证机制,实现了在工业维护中基于证据的可解释推理与受控决策。

Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez, James T Rayfield, Fenno F. Heath III, Abigail Langbridge, Roman Vaculin2026-03-10💻 cs