Text-Driven Emotionally Continuous Talking Face Generation
该论文提出了名为“情感连续口型生成”(EC-TFG)的新任务及相应的 TIE-TFG 模型,旨在通过文本和动态情感描述驱动生成能够展现自然、平滑情感过渡的高保真说话人脸视频,从而解决现有方法难以模拟人类连续情感变化的问题。
2781 篇论文
该论文提出了名为“情感连续口型生成”(EC-TFG)的新任务及相应的 TIE-TFG 模型,旨在通过文本和动态情感描述驱动生成能够展现自然、平滑情感过渡的高保真说话人脸视频,从而解决现有方法难以模拟人类连续情感变化的问题。
该论文提出了一种名为"Lyapunov Probes"的轻量级方法,通过将大语言模型视为动力系统并引入基于导数的稳定性约束,利用扰动下的置信度单调衰减特性来有效区分事实性知识与幻觉区域。
本文提出了首个专注于深度感知的多模态大语言模型 DeepSight,通过构建深度指令数据集、改进 ViT 编码器以捕捉深度细微变化,并利用 GLPN 和 GPT-4 生成训练数据,显著提升了模型在三维场景理解及空间推理方面的能力。
该论文提出了一种针对静态场景视频的神经视频压缩新方法,通过引入“正向激励噪声”将短期时序变化与持久背景解耦,在保持像素级保真度的同时显著降低了数据传输量,实现了计算与带宽的高效权衡。
针对现有联邦域泛化行人重识别方法因依赖全局特征和简单平均聚合而导致的局部细节捕捉不足及高质量客户端贡献被稀释的问题,本文提出了 FedARKS 框架,通过鲁棒知识提取与知识选择机制实现更有效的模型聚合,从而在保护隐私的同时提升模型在未见域上的泛化能力。
该论文提出了一种名为 RMD 的跨分辨率分布匹配蒸馏框架,通过利用对数信噪比映射和预测噪声重注入机制,有效弥合了跨分辨率分布差异,从而在保持高视觉保真度的同时,显著加速了扩散模型的推理过程(如在 SDXL 和 Wan2.1-14B 上分别实现了高达 33.4 倍和 25.6 倍的加速)。
本文提出了 Place-it-R1 框架,通过利用多模态大语言模型的思维链推理能力来引导视频扩散模型,实现了能够感知环境、符合物理因果逻辑且支持用户灵活权衡“合理性”与“保真度”的视频物体插入。
该论文提出“空间色彩混合”作为视觉语言模型的感知压力测试,揭示了现有模型在面对结构化色彩失真时存在严重且无法通过单纯扩展语言模型规模来缓解的感知缺陷,而人类在此类任务中表现显著更优,并证明受人类启发的预处理策略可有效提升模型鲁棒性。
该论文提出了一种名为虚拟治疗(VT)的多模态生成框架,通过结合 CT 影像、临床变量及辐射剂量增量来模拟非小细胞肺癌(NSCLC)在放疗期间的纵向演变,并验证了基于扩散模型的方案在生成解剖学上更合理且稳定的肿瘤演化轨迹方面优于 GAN 基线,从而为 NSCLC 的虚拟治疗监测和自适应放疗研究提供了有力工具。
本文提出了 VLM-RobustBench 基准,通过涵盖 49 种增强类型和 133 种扰动设置,评估了主流视觉语言模型在多种图像失真下的鲁棒性,揭示了当前模型虽语义能力强但空间脆弱,且低严重度几何扰动(如玻璃模糊)往往比高严重度光度扰动造成更显著的性能下降。
该论文提出了名为“反思流采样”(RF-Sampling)的训练无关推理增强框架,通过形式化推导证明其能隐式执行文本 - 图像对齐得分的梯度上升,从而有效解决了现有增强策略在 FLUX 等流匹配模型上表现不佳的问题,并显著提升了生成质量、提示词对齐度及测试时扩展能力。
该论文提出了 FreeOcc,一种无需训练即可利用预训练基础模型从多视角图像中恢复语义与几何信息的管道,通过融合提示分割、3D 重建及确定性优化,在 Occ3D-nuScenes 数据集上实现了与弱监督方法相当的无监督全景占据预测性能,并显著提升了弱监督场景下的训练效果。
该论文提出了一种无需训练伪标签生成与标签精化的半监督框架,通过利用视觉语言模型基于外观描述跨域生成结构一致的伪标签,并结合不确定性加权融合与反向对比学习,在仅使用 2.5% 标注数据的情况下实现了与全监督模型相当的乳腺超声图像分割性能。
本文提出了 JOPP-3D 框架,通过联合利用全景图像与点云数据并转换对齐基础视觉 - 语言特征,实现了在数据稀缺场景下基于自然语言查询的 3D 点云与全景图像开放词汇语义分割,并在多个数据集上显著超越了现有最先进方法。
该论文提出了一种结合多尺度奖励机制与强化学习(PPO)的优化方法,通过融合 2D 切片评估与 3D 体积分析来微调 3D 扩散模型,从而显著提升了医学图像生成的质量及其在下游肿瘤与疾病分类任务中的实用性。
该论文针对现有免训练扩散分割器难以随生成模型能力提升而扩展的问题,通过提出自动聚合与逐像素重缩放技术,有效弥合了注意力图与全局表征及语义相关性之间的差距,从而显著提升了分割性能。
该论文提出了一种两阶段框架,通过先在标注的人造字母表上训练对比学习教师模型,再利用蒸馏技术引导学生在无监督条件下学习历史文字系统的变形不变嵌入,从而在无需确切演化关系真值的情况下实现脚本相似性学习与聚类。
该论文提出了受图灵测试启发的“运动图灵测试”框架及包含 1000 个动作序列的 HHMotion 数据集,通过消除视觉外观干扰的纯运动学评估,揭示了当前人形机器人在动态动作中仍与人类存在显著差异,并证明了专用基线模型在预测运动拟人度方面优于多模态大语言模型。
本文提出了 CRIMSON,这是一种基于临床指南的大语言模型评估框架,通过引入患者背景信息、细粒度的错误分类及基于临床重要性的加权机制,在诊断正确性、上下文相关性和患者安全性方面实现了对胸部 X 光报告生成任务更精准且与放射科专家判断高度一致的评估。
本文提出了一种名为 SpaCRD 的迁移学习方法,通过构建类别正则化变分重建引导的双向交叉注意力融合网络,深度整合组织学图像与空间转录组数据,从而在跨样本、跨平台及跨批次场景下实现了比现有最先进方法更精准的癌症区域检测。