InstructHumans: Editing Animated 3D Human Textures with Instructions

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 InstructHumans 的新系统，它能让用户通过简单的文字指令，轻松修改 3D 虚拟人物的衣服、妆容或外貌，同时还能保持这个人物原本的样子（比如长相、身材）不变，并且修改后的人物依然可以动起来（做各种动作）。

为了让你更容易理解，我们可以把这项技术想象成给一个**“拥有灵魂的 3D 玩偶”**换装和化妆。

1. 核心问题：为什么以前的方法不行？

想象一下，你有一个精致的 3D 玩偶（比如一个穿着西装的男士）。你想用文字指令“给他换上一件和服”。

以前的方法（直接套用旧技术）： 就像是一个**“有点疯狂的艺术家”**。你让他换衣服，他确实给你换上了和服，但他可能顺手把玩偶的脸也画成了和服风格，或者把原本精致的五官抹得模糊不清，甚至把玩偶的发型也改了。
- 原因： 以前的技术（叫 SDS）主要是用来**“从零开始创造”**新东西的。它就像是一个只会画新画的画家，不懂“修改”的概念。它太想听你的话（“穿和服”），结果把原本属于玩偶的特征（“原来的脸”）也一起覆盖掉了。

2. 解决方案：InstructHumans 是怎么做的？

作者发明了一套新的“修改规则”，我们叫它 SDS-E。我们可以把它想象成一位**“经验丰富的老裁缝”**。

A. 聪明的“时间管理” (SDS-E)

比喻： 想象你在给玩偶换衣服。
- 刚开始（大步骤）： 老裁缝会先确认：“这是要换衣服，不是要换头。”他会忽略那些会破坏整体结构的指令，确保玩偶的骨架和脸型不动。
- 中间（中步骤）： 他开始调整衣服的形状，确保和服穿得合身，不会把身体撑变形。
- 最后（小步骤）： 他才会去处理细节，比如和服上的花纹、领口的褶皱。
技术解释： 以前的方法在所有阶段都“用力过猛”，导致细节混乱。InstructHumans 把修改过程分成了早、中、晚三个阶段，在不同阶段只使用不同的“修改指令”，既保证了改得对，又保留了原样。

B. 专注的“聚光灯” (梯度感知采样)

比喻： 假设指令是“给他画上小丑妆”。
- 以前的方法： 像是一个**“漫无目的的探照灯”**，它对着玩偶的脚、手、背都照了一遍，浪费了大量精力，结果脸还没画好。
- InstructHumans： 像是一个**“聪明的聚光灯”**。它一眼就看出“小丑妆”只需要画在脸上。于是，它把 80% 的精力都集中在脸上，只花很少的精力在身体其他部位。
效果： 这样不仅改得更快，而且脸上的妆容更精致，身体其他部位也不会被误伤。

C. 平滑的“熨斗” (平滑正则化)

比喻： 修改后的衣服有时候会出现像“马赛克”一样的噪点，或者颜色一块一块的，很不自然。
- InstructHumans： 就像拿了一个**“智能熨斗”**，在修改完纹理后，轻轻熨过一遍，让衣服的颜色过渡自然，摸起来（看起来）顺滑，没有奇怪的斑点。

3. 最终效果：既听话，又保真

这个系统最厉害的地方在于它做到了**“既要又要”**：

听话： 你说“穿和服”，它就穿和服；你说“变蝙蝠侠”，他就变蝙蝠侠。
保真： 无论怎么改，你一眼就能认出这还是原来那个玩偶（脸没变，身材没变）。
能动： 改完衣服后，你让玩偶跳舞、挥手，衣服会跟着身体自然摆动，不会像贴纸一样僵硬。

总结

InstructHumans 就像是一个**“懂分寸的 3D 造型师”。
以前的工具像是个“破坏狂”，改个衣服可能把脸都毁了；而这个新工具知道“哪里该改，哪里该留”。它通过分阶段操作**、集中火力和精细打磨，让你能用一句话，轻松给 3D 虚拟人换上新造型，同时还能让他们继续活灵活现地动起来。

一句话概括： 它让修改 3D 人物变得像给真人换衣服一样自然、精准，而且不会把脸弄花。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

随着视觉 - 语言模型的发展，利用自然语言指令生成和编辑 3D 人类角色（Avatar）成为可能。然而，现有的基于文本的 3D 编辑方法存在显著局限性：

一致性破坏：现有的编辑方法通常直接应用 分数蒸馏采样 (Score Distillation Sampling, SDS)。SDS 最初是为 3D 生成（从零开始）设计的，其优化目标与编辑（在现有源角色基础上修改）存在本质冲突。
- 在生成任务中，SDS 旨在探索新的模式；而在编辑任务中，必须保持源角色的几何结构、面部身份和未修改区域的纹理一致性。
- 直接应用 SDS 会导致编辑后的角色出现模糊、身份丢失（如面部特征改变）或衣物细节错误（如原本未指定的衣物被改变），即“过度编辑”或“一致性破坏”。
现有方法的不足：
- 部分方法（如 IN2N）不可动画化。
- 部分生成类方法（如 TADA, AvatarCLIP）虽然能生成类似编辑的效果，但本质仍是生成任务，依赖文本编码器对特定主体的记忆，无法直接编辑任意给定的个人角色。
- 直接套用 SDS 进行编辑会导致纹理出现斑点、模糊，且无法在保持身份的同时实现高保真的细节编辑。

2. 核心方法论 (Methodology)

作者提出了 InstructHumans 框架，旨在通过指令驱动的方式编辑可动画的 3D 人类纹理，同时保持与原始角色的高度一致性。主要技术组件包括：

A. 改进的分数蒸馏采样 (SDS-E)

这是论文的核心贡献。作者深入分析了 SDS 的数学构成，将其分解为不同的子项，并发现不同时间步（Timesteps）下各子项的作用截然不同。

SDS 分解：将双条件（图像 $I$ $I$ + 文本 $y$ $y$ ）的 SDS 梯度分解为四个项：
1. $m_1$ (Baseline-shift)：由图像条件引起的偏移。在编辑中小/中时间步会破坏原始分布，导致偏离源图像。
2. $m_3$ (Condition-divergence)：衡量从图像条件向文本条件调整的程度。
3. $m_4$ (Full-condition)：完全条件下的引导项，负责向目标模式收敛。
时间步策略 (Temporal Staging)：
- 大时间步：对编辑无益甚至有害（破坏结构），直接移除。
- 中时间步： $m_4$ 单独使用容易陷入中间模式（导致过平滑），需结合 $m_3$ 帮助跳出。
- 小时间步： $m_1$ 会导致饱和和偏离，需移除； $m_3$ 和 $m_4$ 共同作用以实现高保真细节。
SDS-E 公式：根据时间步动态选择性地应用上述子项，构建了一个专门针对编辑任务的损失函数 $L_{SDS-E}$ ，从而在保持源特征的同时精准执行指令。

B. 混合 3D 人类表示 (Hybrid 3D Human Representation)

采用 EditableHumans 的混合表示法：结合显式的 SMPL-X 网格和隐式的 NeRF。
每个网格顶点关联局部的几何和纹理潜在代码（Latent Codes）。这种分离使得可以在保持动画能力（通过 SMPL-X 驱动姿态）的同时，仅对局部纹理进行编辑。

C. 梯度感知的视角采样 (Gradient-Aware Viewpoint Sampling)

问题：不同的编辑指令关注的身体区域不同（例如“穿西装”关注全身，“画小丑妆”关注面部）。均匀随机采样视角会导致计算资源浪费和收敛缓慢。
方案：根据当前迭代中不同身体区域（面部、躯干、四肢等）的梯度幅值（编辑强度），动态分配相机视角的采样数量。
效果：将计算资源集中在需要编辑的区域，显著加速收敛并提高编辑的针对性。

D. 拉普拉斯平滑正则化 (Laplacian Smoothness Regularization)

问题：SDS 优化常因多视图监督不一致和离散参数化导致高频噪声和纹理斑点。
方案：引入基于网格连通性的拉普拉斯平滑项，惩罚相邻顶点潜在代码的不一致性。
效果：消除纹理斑点，增强空间连贯性，同时保留全局细节。

3. 主要贡献 (Key Contributions)

深入分析 SDS 在编辑中的失效机制：揭示了直接应用 SDS 会破坏源角色一致性的原因，并提出了 SDS 项在不同时间步下的作用机理。
提出 SDS-E (Score Distillation Sampling for Editing)：一种定制的分数蒸馏方法，通过时间步分阶段选择性地应用 SDS 子项，实现了高保真且一致的编辑引导。
提出梯度感知视角采样：一种高效的采样策略，根据编辑需求动态分配视角，提升了编辑效率和特定区域的编辑质量。
提出平滑正则化：解决了 SDS 优化中的纹理噪声问题，提升了最终纹理的视觉质量。
构建 InstructHumans 框架：实现了首个能够处理通用可动画 3D 人类、无需针对特定主体微调即可进行指令驱动编辑的系统。

4. 实验结果 (Results)

定性对比：
- 与 IN2N 相比：InstructHumans 生成的纹理更清晰，且完全可动画（IN2N 不可动画）。
- 与 AvatarCLIP / TADA 相比：在保持原始角色身份（Identity）方面表现更好，避免了生成类方法常见的身份漂移。
- 与 标准 SDS / SSD / NFSD 相比：InstructHumans 避免了模糊、过饱和和斑点问题，能更精准地遵循指令（如“穿上和服”、“变成小丑”）。
定量评估：
- CLIP-Direc (文本对齐度)：优于 IN2N 和其他 SDS 变体。
- CLIP-Img (图像一致性)：在保持与原始图像高度一致的同时实现了编辑，优于 IN2N。
- LPIPS (感知距离)：数值更低，表明纹理质量更高，失真更少。
- 用户研究：在视觉质量、图像一致性和文本一致性三个指标上，InstructHumans 均获得最高偏好率（约 53%-58%）。
消融实验：
- 移除 SDS-E 的时间步策略会导致衣物细节收敛失败或过平滑。
- 移除梯度感知采样会导致编辑焦点不准且运行时间增加 5 倍。
- 移除平滑正则化会导致面部出现明显的斑点噪声。

5. 意义与影响 (Significance)

理论突破：首次系统性地解构了 SDS 在“生成”与“编辑”任务中的不同行为，为 3D 编辑领域的优化策略提供了新的理论依据。
技术实用性：解决了 3D 人类编辑中“保持身份”与“执行指令”之间的核心矛盾，使得非专家用户也能通过自然语言轻松修改 3D 角色的外观（如换装、化妆、改变材质），且角色依然保持可动画性。
应用前景：该方法不仅适用于 3D 人类，其提出的 SDS-E 策略和采样机制也可推广至其他 3D 对象的编辑任务（如 3D 高斯泼溅 Gaussian Splatting 的编辑），为交互式 3D 内容创作提供了强有力的工具。

总结：InstructHumans 通过重新设计分数蒸馏采样过程，成功解决了 3D 人类纹理编辑中的一致性难题，实现了高质量、高保真且可动画的指令驱动编辑，是目前该领域最先进的技术之一。