cs.MM 篇论文 | Gist.Science

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

该论文提出了一种基于频谱图的卷积神经网络方法，用于解决南亚复杂环境下的多标签声音分类难题，并在 SAS-KIIT 和 UrbanSound8K 数据集上证明了其性能显著优于传统的 MFCC 技术。

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Scalable On-the-fly Transcoding for Adaptive Streaming of Dynamic Point Clouds

本文提出并评估了一种利用即时转码的动态点云流媒体系统，通过引入缓存和推测性转码机制显著降低了转码负载，从而在保障用户服务质量的同时实现了系统可扩展性。

Michael Rudolph, Matthias De Fré, Finn Schnier, Tim Wauter, Amr RizkTue, 10 Ma💻 cs

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

该论文针对低照度动漫风景图像增强任务，通过构建新数据集并提出受相对论 GAN 启发的数据相对论不确定性（DRU）框架，利用光波粒二象性类比量化光照不确定性以动态调整目标函数，从而显著提升了生成模型的感知与美学质量。

Yiquan Gao, John SeeThu, 12 Ma🤖 cs.LG

Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring

该论文针对多模态大模型思维链推理中因盲目压缩导致的“视觉失忆”问题，提出了通过双路径锚定机制优化信息瓶颈的 V-Skip 方法，在显著降低推理延迟的同时有效保留了关键视觉细节并提升了准确率。

Dongxu Zhang, Yiding Sun, Cheng Tan, Wenbiao Yan, Ning Yang, Jihua Zhu, Haijun ZhangThu, 12 Ma💬 cs.CL

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

本文提出了 GOT-JEPA 框架，通过联合嵌入预测架构将模型预测预训练从图像特征扩展至跟踪模型本身，并辅以 OccuSolver 模块进行细粒度的遮挡感知与状态优化，从而显著提升了通用目标跟踪器在动态复杂场景下的泛化能力与鲁棒性。

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinThu, 12 Ma🤖 cs.AI

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

该论文提出了一种自适应模态平衡动态语义图差分网络（AMB-DSGDN），通过构建多模态子图、引入差分图注意力机制以滤除噪声并保留关键信号，以及设计自适应模态平衡机制防止主导模态压制，从而有效解决多模态对话情感识别中情感依赖建模不足和模态融合失衡的问题。

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

该论文提出了名为 PRoADS 的基于音频扩散模型的生成式隐写框架，通过正交矩阵投影嵌入秘密信息，并引入潜空间优化与反向欧拉反演技术以最小化重构误差，从而在 64 kbps MP3 压缩下实现了仅 0.15% 的极低误码率，展现出卓越的鲁棒性与安全性。

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

本文提出了 G-STAR，一种将时间感知说话人追踪模块与语音大语言模型转录骨干相结合的端到端系统，旨在解决长篇幅、多说话人重叠语音场景下，在保持会议级说话人身份一致性的同时生成带时间戳和说话人标签的转录文本的问题。

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

本文提出了 P-GSVC，这是首个面向图像和视频的统一可扩展分层渐进式 2D 高斯泼溅框架，通过联合训练策略优化分层表示，实现了从粗糙到精细的渐进式重建，并在质量和分辨率上均展现出显著的性能提升。

Longan Wang, Yuang Shi, Wei Tsang OoiThu, 12 Ma💻 cs

Chasing RATs: Tracing Reading for and as Creative Activity

该论文提出了“阅读活动痕迹”（RATs）概念，将阅读重新定义为一种创造性活动，并通过 WikiRAT 等实例展示了如何通过追踪阅读轨迹来使被算法压缩的人类解释性工作可视化，从而为反思性实践和智能工具设计开辟新路径。

Sophia Liu, Shm Garanganao AlmedaThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

本文提出了 V2M-Zero，一种无需成对数据即可实现视频与音乐时间对齐生成的零样本方法，其核心在于利用跨模态共享的时序变化结构（通过模态内事件曲线捕捉），仅需微调文本转音乐模型并在推理阶段替换为视频事件曲线，即可在音频质量、语义对齐及时间同步性上显著超越现有基线。

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

该论文提出了一种名为 PA-ICVL 的基于姿态信息的上下文视觉学习方法，利用视觉语言模型（VLM）显著提升了在非写实渲染（如卡通）图像中检测语义结构视觉幻觉的能力。

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun SeoMon, 09 Ma🤖 cs.AI

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

本文提出了一套基于对比敏感度、对比掩蔽和对比匹配等低层视觉心理物理原理的测试框架，用于评估 34 种现有图像和视频质量指标在模拟人类视觉感知方面的能力，并揭示了它们在预测特定视觉特性时的优势与局限。

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. MantiukMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

该论文提出了一种无需显式噪声掩码的端到端音频 - 视觉语音识别框架，通过基于 Conformer 的瓶颈融合模块利用视觉线索隐式增强含噪音频特征，从而在保留语音语义完整性的同时提升了噪声环境下的识别鲁棒性。

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

本文提出了 Omni-C，一种基于单一稠密 Transformer 编码器的统一架构，它通过大规模非对齐数据的单模态对比预训练和轻量级投影头，在无需混合专家（MoE）或配对监督的情况下，有效压缩了图像、音频和文本等异构模态，显著降低了推理内存开销并实现了与专家模型相当的性能。

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

VDCook:DIY video data cook your MLLMs

本文介绍了 VDCook，一个基于自然语言查询和 MCP 协议实现自动检索与合成、支持持续演进与多维元数据标注的自进化视频数据操作系统，旨在降低构建垂直领域多模态大模型训练数据集的门槛。

Chengwei WuMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

本文探讨了人工智能时代人类 - 数据交互、探索与可视化所面临的挑战（如非结构化数据、基础模型带来的不确定性及现有交互范式局限），并提出了通过重新定义人机角色、超越传统效率指标以及融合认知与设计原则来构建面向交互式数据分析的人本 AI 系统的未来研究方向。

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Alkaid: Resilience to Edit Errors in Provably Secure Steganography via Distance-Constrained Encoding

本文提出了名为 Alkaid 的隐写方案，通过引入距离约束编码将最小距离解码原则融入编码过程，在保持可证明安全性的同时实现了对编辑错误（如插入、删除和替换）的确定性鲁棒性，并在解码成功率、嵌入容量及编码效率上显著优于现有最先进方法。

Zhihan Cao, Gaolei Li, Jun Wu, Jianhua Li, Hang Zhang, Mingzhe ChenMon, 09 Ma🔢 math

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

本文提出了 V2A-DPO，一种专为基于流的视频转音频模型设计的直接偏好优化框架，通过引入 AudioScore 评分系统、自动化偏好数据生成流水线以及课程学习策略，显著提升了生成音频与人类偏好的一致性，并在多项指标上超越了现有最先进模型。

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

该论文提出了一种基于 Transformer 的多模态自注意力网络框架，通过引入时序对齐旋转位置编码（TaRoPE）和跨时序匹配损失（CTM）来解决音视频模态间的采样率不匹配问题，从而在 CREMA-D 和 RAVDESS 数据集上显著提升了情感识别性能。

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess