TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures

TeHOR 提出了一种基于文本引导的框架,通过利用交互描述文本和外观线索来增强语义对齐与全局上下文理解,从而在单张图像中实现包含非接触交互的准确且语义连贯的 3D 人体与物体重建。

Hyeongjin Nam, Daniel Sungho Jung, Kyoung Mu Lee

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TeHOR 的新系统,它的核心能力是:只看一张照片,就能“脑补”出照片里的人和物体在三维空间里是如何互动的,并且给它们穿上逼真的“衣服”(纹理)。

为了让你更容易理解,我们可以把这项技术想象成一位拥有“读心术”的超级 3D 导演

1. 以前的导演遇到了什么麻烦?(现有技术的局限)

在 TeHOR 出现之前,其他的 3D 重建系统就像是一位只会看“握手”的机械导演

  • 局限一:只认“接触”
    以前的导演认为,只有当人的手摸到了杯子,或者脚踩到了球,才算“互动”。
    • 比喻:如果照片里一个人正伸手去抓一个飞盘(还没抓到),或者正盯着远处的狗看,以前的导演就会懵圈:“没碰到啊?那他们肯定没在互动!”于是,它重建出来的 3D 模型里,人和飞盘可能隔得很远,或者人正对着反方向,完全不符合常理。
  • 局限二:只看“局部”,不懂“全局”
    以前的导演只盯着手和物体接触的那一小块地方,像拿着放大镜看细节,却忘了看整个场景的氛围。
    • 比喻:如果一个人手里拿着一个瓶子,以前的导演可能只把瓶子放在手边,却不管瓶子是正着拿还是倒着拿,甚至不管人是不是在走路。结果重建出来的画面,人可能像个木偶一样僵硬,瓶子也悬浮在奇怪的位置,看起来非常假。

2. TeHOR 导演是怎么工作的?(核心创新)

TeHOR 引入了一个**“文字剧本”**作为指导,让导演不仅能看画面,还能“读懂”画面背后的故事。

第一步:给照片写“剧本”(文本引导)

系统首先会像一位聪明的编剧一样,看着照片问自己:“这人在干什么?”

  • 它不会只说“手在杯子上”,而是会写出更丰富的描述,比如:“一个男人正坐在五颜六色的马赛克长椅上,双腿交叉。” 或者 “一个女人正拿着驴的笼头站在室内。”
  • 这些文字就像剧本,告诉 3D 系统:不仅要还原形状,还要还原意图氛围

第二步:用“剧本”来排练(语义对齐)

有了剧本,系统就开始调整 3D 模型。它利用一种强大的 AI 模型(扩散模型),这个模型就像看过无数电影的“老戏骨”,它知道“坐在长椅上”时,人的腿应该是什么姿势,长椅应该是什么样子。

  • 比喻:以前的导演是“硬拼”几何形状(手必须碰到杯子);TeHOR 导演是“按剧本演戏”。如果剧本说“他在抓飞盘”,哪怕手还没碰到,系统也会自动调整人的姿势,让他看起来正在用力抓,飞盘也飞到了正确的位置。

第三步:穿上“华服”(纹理重建)

以前的系统重建出来的模型往往是灰扑扑的,没有颜色。TeHOR 不仅能摆好姿势,还能根据照片和剧本,给 3D 人和物体穿上逼真的衣服、涂上颜色

  • 比喻:这就像是从一张黑白照片,直接生成了一个可以 360 度旋转、色彩鲜艳的 VR 电影场景。

3. 这个技术有多厉害?(实际效果)

  • 能处理“没碰到”的情况
    比如一个人正看着远处的狗,或者正准备接住一个球。以前的系统会失败,但 TeHOR 能根据“看着狗”或“准备接球”的文字描述,把人的眼神和身体姿态调整得非常自然。
  • 更懂“大局观”
    它知道如果一个人手里拿着热咖啡,杯子应该离身体很近;如果是在跑步,身体应该前倾。它通过理解整个场景的“故事”,让重建出来的 3D 世界看起来非常真实、合理。
  • 行业领先
    在测试中,TeHOR 在准确性和真实感上都打败了之前所有的顶尖方法,特别是在那些没有直接身体接触的场景下,表现更是遥遥领先。

总结

简单来说,TeHOR 就是把“看图说话”和"3D 建模”完美结合了。

它不再是一个只会计算坐标的数学机器,而是一个懂故事、有常识的艺术家。它通过阅读照片里的“文字故事”,把二维的照片变成了三维的、有血有肉的、符合逻辑的虚拟世界。这对于未来的虚拟现实(VR)、增强现实(AR)游戏、机器人理解世界都有着巨大的帮助。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →