When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS
该论文研究表明,在训练数据具备足够声学多样性的前提下,对基于大语言模型(LLM)的文本转语音(TTS)系统进行 LoRA 微调,能够显著提升语音克隆任务中的感知质量、说话人保真度及信噪比,从而证明其是比冻结基座模型更有效的说话人自适应机制。
2385 篇论文
该论文研究表明,在训练数据具备足够声学多样性的前提下,对基于大语言模型(LLM)的文本转语音(TTS)系统进行 LoRA 微调,能够显著提升语音克隆任务中的感知质量、说话人保真度及信噪比,从而证明其是比冻结基座模型更有效的说话人自适应机制。
该论文提出了一种名为“历史共识训练”的迭代方法,通过利用高斯混合模型聚类的多样性来构建参数空间中的稳定屏障,从而在无需特定架构约束或超参数调优的情况下,彻底消除了变分自编码器中的后验坍塌问题。
该论文提出了名为 RAD 的新型对齐框架,通过引入基于最优传输的一阶随机占优约束替代传统的期望成本约束,实现了对尾部风险和谱风险测度的普适性控制,从而在提升模型无害性的同时增强了其对分布外场景的鲁棒性。
本文提出了一种名为接触覆盖引导探索(CCGE)的通用方法,通过利用基于哈希编码的接触计数器来奖励新颖的接触模式并引导探索,显著提升了灵巧操作任务(如物体分离、抓取和重定向)的训练效率、成功率及向真实机器人的迁移能力。
本文提出了 GroundCount 框架,通过结合目标检测模型的空间定位能力来增强视觉语言模型,有效缓解了计数任务中的幻觉问题,并揭示了位置编码与结构化提示在提升计数准确性方面的关键作用。
该论文通过文献综述与针对软件工程从业者的实证调查,论证了人工智能(特别是机器学习和自然语言处理)作为催化剂,能够通过自动化繁琐任务来优化敏捷实践,从而有效应对现代软件需求快速演变的挑战并推动行业创新。
该论文基于对 16 位从业者的访谈,揭示了前沿人工智能系统(如快速迭代、基准漂移等特性)对人类提升研究(RCT)中因果推断假设构成的独特挑战,并系统梳理了应对这些方法论难题的实用方案,以明确此类证据在高 stakes 决策中的适用边界。
本文通过计算机科学家与艺术史学家的跨学科合作,利用潜在空间分解、定量评估及因果分析等方法,揭示了视觉语言模型在识别艺术风格时提取的概念中有 73% 被判定为语义连贯且 90% 与风格预测相关,表明其识别机制在很大程度上与艺术史学家的判断标准相一致。
本文提出了 IsalGraph,一种将任意有限简单图结构编码为九字符指令字符串的紧凑方法,该方法通过贪心算法实现多项式时间编码,具备无无效状态、同构不变性及与图编辑距离强相关等特性,适用于图相似性搜索、图生成及图条件语言建模等任务。
本文提出了 V2M-Zero,一种无需成对数据即可实现视频与音乐时间对齐生成的零样本方法,其核心在于利用跨模态共享的时序变化结构(通过模态内事件曲线捕捉),仅需微调文本转音乐模型并在推理阶段替换为视频事件曲线,即可在音频质量、语义对齐及时间同步性上显著超越现有基线。
本文提出了名为 NeFTY 的可微分物理框架,通过将三维扩散率场参数化为连续神经场并结合严格的数值求解器,实现了从瞬态表面温度测量中对材料属性及亚表面缺陷的高精度定量三维重建。
LiTo 提出了一种联合建模物体几何与视角相关外观的 3D 潜在表示方法,通过将表面光场子采样编码为紧凑的潜在向量,成功复现了高光与菲涅尔反射等复杂视觉效果,并基于此训练流匹配模型实现了从单张图像生成具有光照和材质一致性的 3D 物体。
该论文提出了一种名为"COMIC"的全自动 AI 系统,通过模拟真实制作团队的智能体协作机制,并结合基于 YouTube 喜剧视频语料库训练的 LLM 批评家进行迭代优化,成功生成了质量接近专业水准的短喜剧视频。
本文提出了一种名为 SDR-GAIN 的实时遮挡行人姿态补全框架,该方法通过自监督对抗学习直接从关键点坐标分布中插值缺失位置,在 COCO 和 JAAD 数据集上实现了优于传统及 Transformer 方法的遮挡恢复精度,并具备微秒级实时推理能力。
本文提出了一种结合跨视图交互、注意力融合及多视图一致性损失的时序 - 频谱融合 Transformer 模型,并引入特定于受试者的适配器,旨在利用现有受试者数据快速迁移知识,从而在仅需少量新受试者训练数据的情况下显著提升 RSVP-BCI 系统的解码性能并缩短部署准备时间。
本文提出了一种名为 PnLCalib 的基于点和线优化的体育场地注册方法,通过结合 3D 足球场模型、关键点检测及非线性线条优化模块,有效克服了传统方法在复杂广播场景下的局限,显著提升了多视角与单视角下的摄像机标定精度与鲁棒性。
DP-IQA 是一种首创利用预训练文本到图像扩散模型先验知识,通过特征提取与知识蒸馏构建轻量级模型,从而在无需参考图像的情况下显著提升野外地盲图像质量评估泛化性能与精度的方法。
本文提出了名为 ScenarioFuzz 的基于场景的模糊测试方法,该方法利用历史测试数据与图神经网络优化种子筛选,在显著降低时间成本的同时大幅提升了错误场景的发现效率,并成功在六个自动驾驶系统中发现了 58 个漏洞。
本文提出了一种基于单智能体 Q 学习的分布式多智能体评估方案,通过优化状态与动作空间来降低计算负担并解决兼容性问题,实验表明该方案在语音、视频、高清地图及尽力而为业务场景下相比单智能体方法显著降低了时延。
该论文提出了 CoHet 算法,通过利用基于图神经网络(GNN)的新型内在动机机制,有效解决了部分可观测和奖励稀疏环境下异构多智能体在去中心化设置中的协作学习难题,并在多个基准测试中展现出优于现有最先进方法的性能。