A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives
本文综述了从单模态、跨模态到多模态视角的音乐生成研究,系统梳理了模态表示、数据对齐及引导机制,探讨了当前数据集与评估方法,并指出了多模态融合、数据规模及评估体系等挑战与未来发展方向。
5943 篇论文
本文综述了从单模态、跨模态到多模态视角的音乐生成研究,系统梳理了模态表示、数据对齐及引导机制,探讨了当前数据集与评估方法,并指出了多模态融合、数据规模及评估体系等挑战与未来发展方向。
本文提出了 FindAnything 框架,通过基于 eSAM 分割的物体级特征聚合,将视觉语言信息高效融入致密体素子地图,从而在显著降低计算与存储开销的同时,实现了适用于大型未知环境及资源受限设备(如微型飞行器)的实时开放词汇与物体中心建图。
该论文通过构建三种具有不同预训练策略的模型进行受控研究,揭示了在时间序列预测中,小数据集上的 Tokenizer 过拟合会掩盖大语言模型(LLM)的真实潜力,而即便采用大规模预训练消除偏差,LLM 骨干网络的性能仍有限,且未能一致超越专为大规模时间序列数据训练的专用模型。
这篇立场论文指出,将大语言模型生成的中间令牌(Intermediate Tokens)拟人化为“推理痕迹”或“思考过程”不仅是一种危险的隐喻,还会误导人们对模型本质的理解、阻碍其有效应用并引发有缺陷的研究,因此呼吁学术界停止这种拟人化表述。
该论文采用以幸存者为中心的视角,揭示了由开源换脸模型和大量“去衣”软件构成的“恶意技术生态系统”如何导致当前基于 NIST 报告等标准的 AI 治理框架在应对成人非自愿深度伪造色情内容时存在严重失效与认知缺陷。
本文综述了联邦学习这一去中心化机器学习范式,系统阐述了其架构、生命周期、应对数据异构与隐私保护等关键挑战的技术方案,并探讨了个性化联邦学习等新兴趋势、实际应用及未来研究方向。
本文提出了 HCT-QA 基准,这是一个包含真实与合成人类中心表格及海量问答对的大规模数据集,旨在解决现有方法难以处理复杂表格布局及缺乏自然语言查询评估标准的问题,并验证了微调模型在该任务上的显著性能提升。
本文提出了一种名为 FourierSpecNet 的混合框架,通过将傅里叶谱方法与深度学习相结合来高效近似玻尔兹曼方程中的碰撞算子,该方法不仅具备分辨率不变性和零样本超分辨率能力,还证明了在离散化细化时收敛于谱解,从而在保持高精度的同时显著降低了弹性与非弹性碰撞场景下的计算成本。
该论文提出了将奖励建模转化为推理任务的新范式,通过引入自生成评分准则的“准则链”机制及两阶段训练流程,构建了性能超越现有大型模型的推理型奖励模型(ReasRM)。
该论文提出了一种分层分析框架,系统回顾了 178 个代码大模型基准测试,揭示了当前评估在软件开发生命周期中严重偏向实现阶段而忽视需求与设计阶段、且缺乏有效防污染策略的现状,并指出了未来的研究方向。
本文提出了名为 EVA 的新型事件异步特征学习框架,该框架借鉴语言建模中的线性注意力与自监督学习技术,在保持事件相机高时效性优势的同时显著提升了特征表达力与泛化能力,并在识别与检测任务中超越了现有异步方法。
该论文提出了一种名为 K-CAST 的细粒度条件激活导向方法,通过动态调节推理过程中的内部激活,有效缓解了大型语言模型在逻辑推理中因内容合理性而产生的偏差,显著提升了模型的逻辑推理准确率。
本文提出了 AdAEM,一种能够自适应扩展的评估算法,通过动态生成具有区分度的测试问题来克服现有方法信息量不足的局限,从而有效揭示大语言模型间深层的价值差异与动态演变。
本文提出了首个全面评估大语言模型在环境、社会和治理(ESG)及可持续发展领域知识掌握程度的基准ESGenius,该基准包含经专家验证的问答数据集与权威语料库,并通过零样本和检索增强生成(RAG)两种评估模式揭示了当前模型在该专业领域的知识缺口,同时证明了RAG技术在显著提升模型表现方面的关键作用。
本文提出了 KramaBench,一个包含 104 个真实数据湖挑战的基准测试,旨在评估 AI 系统在端到端数据洞察流程中的能力,研究发现尽管现有大模型能识别部分任务,但在生成可运行的完整端到端管道方面表现仍十分有限。
该论文提出了 VisioMath 基准,通过包含 1800 个候选答案均为细微相似图形的 K-12 数学问题,揭示了当前多模态大模型在细粒度视觉推理中因图文对齐不足而导致的性能瓶颈,并验证了多种对齐策略能显著提升模型表现。
该论文指出当前大语言模型道德能力评估存在过度依赖预设场景、忽视推理过程及缺乏信息缺口识别等缺陷,通过引入涵盖五个维度的新评估框架发现,虽然模型在标准情境下表现优于人类,但在需要主动从噪声中甄别道德相关信息的复杂场景中表现显著逊色,表明现有评估可能高估了 AI 的真实道德推理能力。
本文提出了名为 ContextBench 的基准测试,旨在评估生成能激活特定潜在特征或行为且语言流畅的输入的方法,并通过结合大语言模型辅助与扩散模型修复的改进进化提示优化策略,实现了在激发效果与语言流畅度之间的最佳平衡。
该论文提出了名为 Sysformer 的新方法,通过训练一个轻量级 Transformer 模型在输入嵌入空间中动态自适应地优化系统提示,从而在不微调冻结大语言模型参数的前提下,显著提升了模型对有害提示的拒绝率以及对安全提示的遵循度,并有效抵御了复杂的越狱攻击。
本文提出了一种名为迭代量子特征映射(IQFMs)的混合量子 - 经典框架,该框架通过迭代连接浅层量子特征映射与经典计算的增强权重,结合对比学习和逐层训练机制,有效克服了深层量子电路的噪声与资源瓶颈,并在无需优化变分参数的情况下实现了优于量子卷积神经网络且媲美经典神经网络的分类性能。