FC-4DFS: Frequency-controlled Flexible 4D Facial Expression Synthesizing
本文提出了一种名为 FC-4DFS 的频率控制方法,通过引入频率控制 LSTM 网络、时序一致性损失以及基于交叉注意力的多层身份感知位移网络,实现了在 CoMA 和 Florence4D 数据集上具有高度灵活性和平滑度的 SOTA 级 4D 面部表情序列生成。
44 篇论文
本文提出了一种名为 FC-4DFS 的频率控制方法,通过引入频率控制 LSTM 网络、时序一致性损失以及基于交叉注意力的多层身份感知位移网络,实现了在 CoMA 和 Florence4D 数据集上具有高度灵活性和平滑度的 SOTA 级 4D 面部表情序列生成。
本文提出了一种名为 LM-4DGAN 的生成模型,通过利用中性地标引导、引入身份判别器与地标自编码器以及交叉注意力机制,实现了在保持身份鲁棒性的同时合成 4D 面部表情。
本文通过统一的切片式训练测试协议和完全可复现的实验,对比了 Clough-Tocher 与多二次径向基函数在有无噪声条件下的插值性能,发现两者在无噪时均表现优异,但在有噪时精确插值会导致过拟合,其中立方插值更为稳定,且该研究为环境工程中利用结构化插值从含噪测量中恢复物理过程行为提供了实践依据。
本文提出了 TopGen,一种通过双查询解码器同时预测结构布局与交叉场、并基于新构建的 TopGen-220K 数据集进行训练的鲁棒学习框架,旨在克服传统方法效率低及现有学习模型缺乏结构可编辑性的缺陷,从而生成高质量的四边形网格。
TreeON 提出了一种新颖的神经框架,仅需单张正射影像和数字表面模型,通过结合几何监督与可微分阴影及轮廓损失的训练策略,在无需真实地面激光扫描数据的情况下,成功从稀疏地理数据中重建出高质量且结构合理的 3D 树木点云。
LiTo 提出了一种联合建模物体几何与视角相关外观的 3D 潜在表示方法,通过将表面光场子采样编码为紧凑的潜在向量,成功复现了高光与菲涅尔反射等复杂视觉效果,并基于此训练流匹配模型实现了从单张图像生成具有光照和材质一致性的 3D 物体。
该论文提出了一种名为 Co-Layout 的新框架,通过结合大语言模型与基于网格的整数规划,采用由粗到细的优化策略,实现了对室内布局与家具摆放的联合自动优化,在提升设计质量的同时显著提高了计算效率。
本文介绍了名为"Companion"的艺术装置,它通过结合绘图机器人与大语言模型,利用上下文学习和实时工具调用实现人机语音与绘画的双向互动,将机器人从被动执行者转变为能推动共同视觉叙事的创造性伙伴,并经专家评估证实了其作品具备独特的审美价值与专业展览潜力。
本文探讨了人工智能时代人类 - 数据交互、探索与可视化所面临的挑战(如非结构化数据、基础模型带来的不确定性及现有交互范式局限),并提出了通过重新定义人机角色、超越传统效率指标以及融合认知与设计原则来构建面向交互式数据分析的人本 AI 系统的未来研究方向。
本文提出了名为 Icarus 的全天气天空模型,该模型能够学习全动态范围(FDR)物理捕获的户外图像曝光范围,通过条件生成支持用户控制太阳与云层位置及纹理,从而在基于图像的照明(IBL)中实现超越现有深度学习方法的高精度、高保真度且光照方向准确的自然天空模拟。
PixARMesh 提出了一种基于自回归机制的单视图场景重建方法,能够直接从单张 RGB 图像联合预测物体布局与几何,在无需隐式场或后期优化的情况下,一次性生成连贯且适用于下游应用的高质量 3D 室内网格。
该论文提出了名为 FontUse 的数据驱动方法,通过构建包含约 7 万张图像的大规模字体专用数据集,利用自动标注流程将字体风格与使用场景相结合,使现有文生图模型无需架构修改即可显著提升对图像排版要求的遵循度。
该论文提出了物理模拟器内循环视频生成(PSIVG)框架,通过将物理模拟器与视频扩散过程相结合,利用模拟的 4D 场景轨迹引导生成过程,并辅以测试时纹理一致性优化技术,从而在保持视觉质量的同时显著提升了生成视频对重力、惯性和碰撞等基本物理定律的遵循程度。
本文提出了 LayoutDreamer 框架,该框架利用 3D 高斯泼溅技术,通过文本引导的有向场景图、自适应布局调整及物理能量约束,实现了高质量且符合物理规律的文本到 3D 组合场景生成,并在 T3Bench 多物体生成指标上取得了最先进水平。
本文介绍了 altiro3D,这是一个开源扩展库,它利用单张 RGB 图像或平面视频,结合 MiDaS 深度估计、OpenCV 与 Telea 图像修复技术以及快速投影算法,生成多视角光场图像或视频,从而实现逼真的 3D 自由视角体验。
本文提出了模型无关的相位保持扩散(-PD)方法,通过在扩散过程中保留输入相位并仅随机化幅度,实现了无需额外参数即可保持几何结构一致性的可控图像与视频生成,显著提升了模拟到现实(Sim-to-Real)等任务的性能。
本文提出了名为"Gaussian Wardrobe"的新框架,通过多视图视频将人体与多层形状无关的神经服装解耦为独立的 3D 高斯表示,从而实现了具有逼真动态的复合 3D 神经 Avatar 构建及跨主体的自由虚拟试穿。
GloSplat 提出了一种在 3D 高斯泼溅训练中联合优化位姿与外观的框架,通过保留显式 SfM 特征轨迹作为独立可优化参数,有效解决了传统纯光度优化方法易出现的位姿漂移问题,实现了比现有 COLMAP 依赖及免依赖方法更快速、更精准的 3D 重建。
本文提出了一种引入收缩参数的新型相机模型,在保留正交投影稳定性的同时有效模拟了近景图像中的透视畸变,从而显著提升了单目 3D 可变形模型在头戴式摄像机近景视频中的回归性能。
本文提出了一种基于分层测地网格的 5D 时空方向哈希编码,通过解决方向域中的畸变与不连续问题,在神经路径引导任务中实现了比现有方法更优的方差降低效果。