Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds
该论文提出了一种基于频谱图的卷积神经网络方法,用于解决南亚复杂环境下的多标签声音分类难题,并在 SAS-KIIT 和 UrbanSound8K 数据集上证明了其性能显著优于传统的 MFCC 技术。
54 篇论文
该论文提出了一种基于频谱图的卷积神经网络方法,用于解决南亚复杂环境下的多标签声音分类难题,并在 SAS-KIIT 和 UrbanSound8K 数据集上证明了其性能显著优于传统的 MFCC 技术。
本文提出并评估了一种利用即时转码的动态点云流媒体系统,通过引入缓存和推测性转码机制显著降低了转码负载,从而在保障用户服务质量的同时实现了系统可扩展性。
该论文针对低照度动漫风景图像增强任务,通过构建新数据集并提出受相对论 GAN 启发的数据相对论不确定性(DRU)框架,利用光波粒二象性类比量化光照不确定性以动态调整目标函数,从而显著提升了生成模型的感知与美学质量。
该论文针对多模态大模型思维链推理中因盲目压缩导致的“视觉失忆”问题,提出了通过双路径锚定机制优化信息瓶颈的 V-Skip 方法,在显著降低推理延迟的同时有效保留了关键视觉细节并提升了准确率。
本文提出了 GOT-JEPA 框架,通过联合嵌入预测架构将模型预测预训练从图像特征扩展至跟踪模型本身,并辅以 OccuSolver 模块进行细粒度的遮挡感知与状态优化,从而显著提升了通用目标跟踪器在动态复杂场景下的泛化能力与鲁棒性。
该论文提出了一种自适应模态平衡动态语义图差分网络(AMB-DSGDN),通过构建多模态子图、引入差分图注意力机制以滤除噪声并保留关键信号,以及设计自适应模态平衡机制防止主导模态压制,从而有效解决多模态对话情感识别中情感依赖建模不足和模态融合失衡的问题。
该论文提出了名为 PRoADS 的基于音频扩散模型的生成式隐写框架,通过正交矩阵投影嵌入秘密信息,并引入潜空间优化与反向欧拉反演技术以最小化重构误差,从而在 64 kbps MP3 压缩下实现了仅 0.15% 的极低误码率,展现出卓越的鲁棒性与安全性。
本文提出了 G-STAR,一种将时间感知说话人追踪模块与语音大语言模型转录骨干相结合的端到端系统,旨在解决长篇幅、多说话人重叠语音场景下,在保持会议级说话人身份一致性的同时生成带时间戳和说话人标签的转录文本的问题。
本文提出了 P-GSVC,这是首个面向图像和视频的统一可扩展分层渐进式 2D 高斯泼溅框架,通过联合训练策略优化分层表示,实现了从粗糙到精细的渐进式重建,并在质量和分辨率上均展现出显著的性能提升。
该论文提出了“阅读活动痕迹”(RATs)概念,将阅读重新定义为一种创造性活动,并通过 WikiRAT 等实例展示了如何通过追踪阅读轨迹来使被算法压缩的人类解释性工作可视化,从而为反思性实践和智能工具设计开辟新路径。
本文提出了 V2M-Zero,一种无需成对数据即可实现视频与音乐时间对齐生成的零样本方法,其核心在于利用跨模态共享的时序变化结构(通过模态内事件曲线捕捉),仅需微调文本转音乐模型并在推理阶段替换为视频事件曲线,即可在音频质量、语义对齐及时间同步性上显著超越现有基线。
该论文提出了一种名为 PA-ICVL 的基于姿态信息的上下文视觉学习方法,利用视觉语言模型(VLM)显著提升了在非写实渲染(如卡通)图像中检测语义结构视觉幻觉的能力。
本文提出了一套基于对比敏感度、对比掩蔽和对比匹配等低层视觉心理物理原理的测试框架,用于评估 34 种现有图像和视频质量指标在模拟人类视觉感知方面的能力,并揭示了它们在预测特定视觉特性时的优势与局限。
该论文提出了一种无需显式噪声掩码的端到端音频 - 视觉语音识别框架,通过基于 Conformer 的瓶颈融合模块利用视觉线索隐式增强含噪音频特征,从而在保留语音语义完整性的同时提升了噪声环境下的识别鲁棒性。
本文提出了 Omni-C,一种基于单一稠密 Transformer 编码器的统一架构,它通过大规模非对齐数据的单模态对比预训练和轻量级投影头,在无需混合专家(MoE)或配对监督的情况下,有效压缩了图像、音频和文本等异构模态,显著降低了推理内存开销并实现了与专家模型相当的性能。
本文介绍了 VDCook,一个基于自然语言查询和 MCP 协议实现自动检索与合成、支持持续演进与多维元数据标注的自进化视频数据操作系统,旨在降低构建垂直领域多模态大模型训练数据集的门槛。
本文探讨了人工智能时代人类 - 数据交互、探索与可视化所面临的挑战(如非结构化数据、基础模型带来的不确定性及现有交互范式局限),并提出了通过重新定义人机角色、超越传统效率指标以及融合认知与设计原则来构建面向交互式数据分析的人本 AI 系统的未来研究方向。
本文提出了名为 Alkaid 的隐写方案,通过引入距离约束编码将最小距离解码原则融入编码过程,在保持可证明安全性的同时实现了对编辑错误(如插入、删除和替换)的确定性鲁棒性,并在解码成功率、嵌入容量及编码效率上显著优于现有最先进方法。
本文提出了 V2A-DPO,一种专为基于流的视频转音频模型设计的直接偏好优化框架,通过引入 AudioScore 评分系统、自动化偏好数据生成流水线以及课程学习策略,显著提升了生成音频与人类偏好的一致性,并在多项指标上超越了现有最先进模型。
该论文提出了一种基于 Transformer 的多模态自注意力网络框架,通过引入时序对齐旋转位置编码(TaRoPE)和跨时序匹配损失(CTM)来解决音视频模态间的采样率不匹配问题,从而在 CREMA-D 和 RAVDESS 数据集上显著提升了情感识别性能。