Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition
该论文提出了一种基于 Transformer 的多模态自注意力网络框架,通过引入时序对齐旋转位置编码(TaRoPE)和跨时序匹配损失(CTM)来解决音视频模态间的采样率不匹配问题,从而在 CREMA-D 和 RAVDESS 数据集上显著提升了情感识别性能。
55 篇论文
该论文提出了一种基于 Transformer 的多模态自注意力网络框架,通过引入时序对齐旋转位置编码(TaRoPE)和跨时序匹配损失(CTM)来解决音视频模态间的采样率不匹配问题,从而在 CREMA-D 和 RAVDESS 数据集上显著提升了情感识别性能。
本文揭示了图像内嵌图像(Image-in-Image)隐写方案因嵌入过程产生的混合特性而极易被检测,并提出了一种基于独立分量分析高阶矩的简单可解释隐写分析新方法,实验表明该方法在区分载体与隐写图像时准确率高达 84.6%,且此类方案对传统隐写分析也表现出极高的可检测性。
该论文针对大型音频语言模型忽视副语言线索的问题,提出了一种包含分层微调和辅助分类头的副语言增强微调(PE-FT)协议,通过分层分析识别关键层并有效提升了模型的副语言感知能力。
该论文提出了风格引导的运动扩散模型(SGMD),通过结合 Transformer 架构、风格调制模块以及时空掩码机制,实现了能够根据音乐特征和用户风格提示生成既真实又具风格一致性、且支持轨迹生成、补间及修复等灵活控制任务的舞蹈序列。
本文介绍了 altiro3D,这是一个开源扩展库,它利用单张 RGB 图像或平面视频,结合 MiDaS 深度估计、OpenCV 与 Telea 图像修复技术以及快速投影算法,生成多视角光场图像或视频,从而实现逼真的 3D 自由视角体验。
本文提出了 InstructHumans 框架,通过引入一种能平衡编辑效果与源角色一致性的改进版编辑分数蒸馏采样(SDS-E)方法,实现了基于指令的动画化 3D 人体纹理的高质量编辑。
本文提出了 EasyAnimate,这是一个基于扩散 Transformer 的高性能视频生成框架,通过引入混合窗口注意力机制、奖励反向传播微调、基于 Token 长度的训练策略以及多模态大语言模型文本编码器,在显著提升训练与推理效率的同时实现了视频生成质量与人类偏好对齐的突破,并在 VBench 榜单及人工评估中取得了最先进水平。
本文提出了 ExposureEngine,这是一个面向体育转播的端到端系统,通过预测旋转边界框(OBB)实现精准的品牌曝光检测,并结合自然语言智能体层生成可审计的赞助可视性分析报表。
本文从理论与实证角度揭示了基于扩散模型的图像编辑技术如何通过去噪过程系统性衰减并消除鲁棒隐形水印,导致水印在编辑后几乎无法被解码,并据此提出了相应的伦理考量与设计指南。
本文提出了 DeformTrace,一种结合可变形自/交叉状态空间模型与中继令牌机制的新型混合架构,旨在通过动态感受野和子空间划分解决视频音频时序伪造定位中边界模糊、长程依赖及稀疏伪造检测等难题,从而实现更精准、高效且鲁棒的伪造片段识别。
本文提出了 SarcasmMiner,一种基于强化学习的后训练框架,通过双轨蒸馏策略和分组相对策略优化(GRPO)解决多模态讽刺检测中的幻觉问题,在 MUStARD++ 数据集上将 F1 分数从 68.23% 提升至 70.22%。
本文提出了 Export3D 方法,通过引入将 3DMM 表情参数融入源图像的三平面生成器,并结合消除身份外观干扰的对比预训练框架,实现了仅需单张图像即可生成视角可控且无身份外观交换的 3D 感知表情可控肖像动画。
本文针对音乐生成模型评估滞后的问题,提出了涵盖大规模偏好数据集、细粒度人类标注语料及统一基准测试的 CMI-RewardBench 生态系统,并开发了能够处理异构多模态指令的 CMI 奖励模型,显著提升了与人类判断的相关性并支持推理时的有效扩展。
该论文揭示了现代图像生成模型中存在的“顺序到空间偏差”(OTS)现象,即实体提及顺序会错误地决定空间布局,并通过提出 OTS-Bench 基准测试证实了该偏差的普遍性及其数据驱动本质,同时展示了通过针对性微调或早期干预策略可有效缓解该问题。
本文提出了 Crab,一种通过引入包含显式推理过程的 AV-UIE v2 数据集以及采用交互感知 LoRA(I-LoRA)动态路由机制来显式建模任务间关系,从而有效解决音频 - 视觉任务异质性导致的负迁移问题,并在多任务学习中实现正向迁移的扩展性统一模型。