GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

本文提出了 GOT-JEPA 框架,通过联合嵌入预测架构将模型预测预训练从图像特征扩展至跟踪模型本身,并辅以 OccuSolver 模块进行细粒度的遮挡感知与状态优化,从而显著提升了通用目标跟踪器在动态复杂场景下的泛化能力与鲁棒性。

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinThu, 12 Ma🤖 cs.AI

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

该论文提出了一种自适应模态平衡动态语义图差分网络(AMB-DSGDN),通过构建多模态子图、引入差分图注意力机制以滤除噪声并保留关键信号,以及设计自适应模态平衡机制防止主导模态压制,从而有效解决多模态对话情感识别中情感依赖建模不足和模态融合失衡的问题。

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

该论文提出了名为 PRoADS 的基于音频扩散模型的生成式隐写框架,通过正交矩阵投影嵌入秘密信息,并引入潜空间优化与反向欧拉反演技术以最小化重构误差,从而在 64 kbps MP3 压缩下实现了仅 0.15% 的极低误码率,展现出卓越的鲁棒性与安全性。

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

本文提出了 V2M-Zero,一种无需成对数据即可实现视频与音乐时间对齐生成的零样本方法,其核心在于利用跨模态共享的时序变化结构(通过模态内事件曲线捕捉),仅需微调文本转音乐模型并在推理阶段替换为视频事件曲线,即可在音频质量、语义对齐及时间同步性上显著超越现有基线。

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

该论文提出了一种无需显式噪声掩码的端到端音频 - 视觉语音识别框架,通过基于 Conformer 的瓶颈融合模块利用视觉线索隐式增强含噪音频特征,从而在保留语音语义完整性的同时提升了噪声环境下的识别鲁棒性。

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

本文提出了 Omni-C,一种基于单一稠密 Transformer 编码器的统一架构,它通过大规模非对齐数据的单模态对比预训练和轻量级投影头,在无需混合专家(MoE)或配对监督的情况下,有效压缩了图像、音频和文本等异构模态,显著降低了推理内存开销并实现了与专家模型相当的性能。

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

本文探讨了人工智能时代人类 - 数据交互、探索与可视化所面临的挑战(如非结构化数据、基础模型带来的不确定性及现有交互范式局限),并提出了通过重新定义人机角色、超越传统效率指标以及融合认知与设计原则来构建面向交互式数据分析的人本 AI 系统的未来研究方向。

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Alkaid: Resilience to Edit Errors in Provably Secure Steganography via Distance-Constrained Encoding

本文提出了名为 Alkaid 的隐写方案,通过引入距离约束编码将最小距离解码原则融入编码过程,在保持可证明安全性的同时实现了对编辑错误(如插入、删除和替换)的确定性鲁棒性,并在解码成功率、嵌入容量及编码效率上显著优于现有最先进方法。

Zhihan Cao, Gaolei Li, Jun Wu, Jianhua Li, Hang Zhang, Mingzhe ChenMon, 09 Ma🔢 math