Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model
本文提出了名为 MambaDance 的新方法,通过利用 Mamba 架构替代 Transformer 构建两阶段扩散模型,并结合高斯节拍表示来显式引导解码,从而在 AIST++ 和 FineDance 数据集上生成了从短到长序列均能精准捕捉舞蹈节奏性与音乐同步性的逼真舞蹈动作。
4988 篇论文
本文提出了名为 MambaDance 的新方法,通过利用 Mamba 架构替代 Transformer 构建两阶段扩散模型,并结合高斯节拍表示来显式引导解码,从而在 AIST++ 和 FineDance 数据集上生成了从短到长序列均能精准捕捉舞蹈节奏性与音乐同步性的逼真舞蹈动作。
该论文提出了 DyLLM,一种无需训练的推理框架,通过检测相邻去噪步骤间注意力上下文的余弦相似度来识别“显著令牌”,并仅对这些令牌重新计算注意力与前馈操作,从而在保持精度的同时将掩码扩散语言模型的吞吐量提升最高达 9.6 倍。
本文提出了 GCGNet(图一致性生成网络),通过变分生成器、图结构对齐器和图细化器的协同作用,有效建模了含外生变量的时间序列中时空与通道间的联合相关性,并在抗噪性和预测精度上优于现有最先进方法。
该论文针对真实场景下的表情识别挑战,提出了一种结合安全交叉注意力机制与模态丢弃策略的鲁棒多模态 Transformer 框架,通过动态融合视听特征及优化长尾分布,在 Aff-Wild2 验证集上实现了 60.79% 的准确率和 0.5029 的 F1 分数。
本文提出了 CDRRM 框架,通过“对比后合成”范式生成高质量、上下文感知的评分标准,在仅需少量数据的情况下显著提升了奖励模型的性能、可解释性并有效缓解了评估偏差。
该论文提出了一种名为 S2S-FDD 的故障诊断框架,通过设计信号转语义算子将工业时序数据转化为自然语言摘要,并结合多轮树状诊断方法,实现了能够回答“为何”及“如何修复”等关键问题的可解释性零样本故障诊断。
Speed3R 是一种受运动恢复结构(SfM)启发的端到端可训练模型,它通过双分支注意力机制仅对最具信息量的图像令牌进行细粒度关注,从而在保持几何精度的同时,将 1000 视图序列的推理速度提升了 12.4 倍,有效解决了现有前馈 3D 重建模型因稠密注意力机制导致的二次复杂度瓶颈。
本文提出了 ImageEdit-R1,一种利用强化学习协调多个专用智能体进行高层决策的多智能体框架,通过将图像编辑视为序列决策问题,有效解决了现有模型在处理复杂、多步指令时的局限性,并在多项实验中超越了闭源扩散模型及其他基线方法。
该论文提出了一种名为“上下文强化学习”(ICRL)的新框架,通过仅在强化学习阶段利用逐步减少的少样本提示来训练大语言模型使用外部工具,从而在无需监督微调(SFT)的情况下实现了高效且可扩展的工具调用能力,并在多项基准测试中取得了最先进的性能。
本文提出了 DSH-Bench,这是一个包含分层主题分类、细粒度难度与场景评估体系以及高相关性一致性指标(SICS)的综合基准,旨在通过系统性的多维度分析克服现有主体驱动文生图模型评估的局限性,并为后续模型优化提供关键指导。
该论文提出了 DC-W2S 框架,通过结合自一致性指标与嵌入空间邻域一致性指标来筛选高可靠性监督信号,并采用课程学习策略,实现了在无需大量专家标注的情况下利用含噪弱监督数据训练出可靠的生物推理过程奖励模型。
本文针对现有搜索代理难以获取未被搜索引擎索引信息(UIS)的局限,提出了首个 UIS 基准测试 UIS-QA 及名为 UIS-Digger 的多智能体框架,通过双模式浏览和文件解析能力,在仅使用约 300 亿参数模型的情况下显著超越了包含 O3 和 GPT-4.1 在内的先进系统,为构建全面的信息搜索代理开辟了新方向。
SaiVLA-0 提出了一种受神经科学启发的“大脑 - 脑桥 - 小脑”三分架构,通过冻结的高层多模态先验、实时意图整合适配器及并行快速控制解码器,实现了计算感知、模块化且高效的视觉 - 语言 - 动作系统,并在 LIBERO 基准测试中显著提升了训练效率与任务成功率。
本文提出了 FoleyFlow,一种通过掩码建模训练实现音视频语义与节奏对齐,并利用动态条件流框架基于视频特征生成协调音频的新方法,其在基准测试中显著超越了现有成果。
本文提出了无需重新训练的推理时方法 DARC,通过将响应选择建模为分布鲁棒且风险敏感的决策过程,利用 KL 鲁棒满意度目标在存在异质偏好分歧的情况下有效降低尾部风险并维持平均质量。
该论文提出了一种渐进式外部知识挖掘框架,使大语言模型能够通过迭代选择查询外部知识或执行逻辑推理等动作来动态解决开放域隐式复杂问答问题,并在 StrategyQA 数据集上以极少的参数量实现了 78.17% 的准确率,刷新了约 100 亿参数规模模型的最优性能。
本文提出了一种基于混合 1D-CNN-GRU 模型并结合多种可解释性 AI 技术的智能故障检测与诊断方法,旨在解决汽车软件系统验证中黑盒模型缺乏可解释性的问题,从而提升故障根因分析能力并增强实时安全关键应用中的模型置信度。
本文介绍了“条件洞察代理”(Condition Insight Agent),这是一个已部署的决策支持框架,它通过整合异构数据(如文本工单、传感器数据和结构化故障知识)并采用确定性证据构建与规则验证机制,实现了在工业维护中基于证据的可解释推理与受控决策。
该论文针对语音模型量化中因激活值范围大而导致的信息丢失问题,提出了一种基于进化策略的校准方法(ESC),实现了在多个语音任务中全 INT8 无损及全 INT4 近无损的量化性能。
该论文研究表明,在连续潜在空间中进行推理(Continuous Chain-of-Thought)相比传统的显式思维链,在低资源语言的零样本场景下具有更强的鲁棒性和语言不变性,同时能将推理过程压缩 29 至 50 倍,为跨语言推理提供了可扩展的高效解决方案。