cs.AI 篇论文 | Gist.Science

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

本文提出了名为 MambaDance 的新方法，通过利用 Mamba 架构替代 Transformer 构建两阶段扩散模型，并结合高斯节拍表示来显式引导解码，从而在 AIST++ 和 FineDance 数据集上生成了从短到长序列均能精准捕捉舞蹈节奏性与音乐同步性的逼真舞蹈动作。

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

该论文提出了 DyLLM，一种无需训练的推理框架，通过检测相邻去噪步骤间注意力上下文的余弦相似度来识别“显著令牌”，并仅对这些令牌重新计算注意力与前馈操作，从而在保持精度的同时将掩码扩散语言模型的吞吐量提升最高达 9.6 倍。

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

本文提出了 GCGNet（图一致性生成网络），通过变分生成器、图结构对齐器和图细化器的协同作用，有效建模了含外生变量的时间序列中时空与通道间的联合相关性，并在抗噪性和预测精度上优于现有最先进方法。

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

该论文针对真实场景下的表情识别挑战，提出了一种结合安全交叉注意力机制与模态丢弃策略的鲁棒多模态 Transformer 框架，通过动态融合视听特征及优化长尾分布，在 Aff-Wild2 验证集上实现了 60.79% 的准确率和 0.5029 的 F1 分数。

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

本文提出了 CDRRM 框架，通过“对比后合成”范式生成高质量、上下文感知的评分标准，在仅需少量数据的情况下显著提升了奖励模型的性能、可解释性并有效缓解了评估偏差。

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

该论文提出了一种名为 S2S-FDD 的故障诊断框架，通过设计信号转语义算子将工业时序数据转化为自然语言摘要，并结合多轮树状诊断方法，实现了能够回答“为何”及“如何修复”等关键问题的可解释性零样本故障诊断。

Baoxue Li, Chunhui Zhao2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Speed3R 是一种受运动恢复结构（SfM）启发的端到端可训练模型，它通过双分支注意力机制仅对最具信息量的图像令牌进行细粒度关注，从而在保持几何精度的同时，将 1000 视图序列的推理速度提升了 12.4 倍，有效解决了现有前馈 3D 重建模型因稠密注意力机制导致的二次复杂度瓶颈。

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

本文提出了 ImageEdit-R1，一种利用强化学习协调多个专用智能体进行高层决策的多智能体框架，通过将图像编辑视为序列决策问题，有效解决了现有模型在处理复杂、多步指令时的局限性，并在多项实验中超越了闭源扩散模型及其他基线方法。

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

该论文提出了一种名为“上下文强化学习”（ICRL）的新框架，通过仅在强化学习阶段利用逐步减少的少样本提示来训练大语言模型使用外部工具，从而在无需监督微调（SFT）的情况下实现了高效且可扩展的工具调用能力，并在多项基准测试中取得了最先进的性能。

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

本文提出了 DSH-Bench，这是一个包含分层主题分类、细粒度难度与场景评估体系以及高相关性一致性指标（SICS）的综合基准，旨在通过系统性的多维度分析克服现有主体驱动文生图模型评估的局限性，并为后续模型优化提供关键指导。

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

该论文提出了 DC-W2S 框架，通过结合自一致性指标与嵌入空间邻域一致性指标来筛选高可靠性监督信号，并采用课程学习策略，实现了在无需大量专家标注的情况下利用含噪弱监督数据训练出可靠的生物推理过程奖励模型。

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

本文针对现有搜索代理难以获取未被搜索引擎索引信息（UIS）的局限，提出了首个 UIS 基准测试 UIS-QA 及名为 UIS-Digger 的多智能体框架，通过双模式浏览和文件解析能力，在仅使用约 300 亿参数模型的情况下显著超越了包含 O3 和 GPT-4.1 在内的先进系统，为构建全面的信息搜索代理开辟了新方向。

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

SaiVLA-0 提出了一种受神经科学启发的“大脑 - 脑桥 - 小脑”三分架构，通过冻结的高层多模态先验、实时意图整合适配器及并行快速控制解码器，实现了计算感知、模块化且高效的视觉 - 语言 - 动作系统，并在 LIBERO 基准测试中显著提升了训练效率与任务成功率。

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

本文提出了 FoleyFlow，一种通过掩码建模训练实现音视频语义与节奏对齐，并利用动态条件流框架基于视频特征生成协调音频的新方法，其在基准测试中显著超越了现有成果。

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

本文提出了无需重新训练的推理时方法 DARC，通过将响应选择建模为分布鲁棒且风险敏感的决策过程，利用 KL 鲁棒满意度目标在存在异质偏好分歧的情况下有效降低尾部风险并维持平均质量。

Mingxi Zou, Jiaxiang Chen, Junfan Li, Langzhang Liang, Qifan Wang, Xu Yinghui, Zenglin Xu2026-03-10🤖 cs.LG

Gradually Excavating External Knowledge for Implicit Complex Question Answering

该论文提出了一种渐进式外部知识挖掘框架，使大语言模型能够通过迭代选择查询外部知识或执行逻辑推理等动作来动态解决开放域隐式复杂问答问题，并在 StrategyQA 数据集上以极少的参数量实现了 78.17% 的准确率，刷新了约 100 亿参数规模模型的最优性能。

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

本文提出了一种基于混合 1D-CNN-GRU 模型并结合多种可解释性 AI 技术的智能故障检测与诊断方法，旨在解决汽车软件系统验证中黑盒模型缺乏可解释性的问题，从而提升故障根因分析能力并增强实时安全关键应用中的模型置信度。

Mohammad Abboush, Ehab Ghannoum, Andreas Rausch2026-03-10💻 cs

cs.AI