LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

本文提出了 LATO,一种基于流匹配的新型 3D 网格生成方法,它通过顶点位移场与稀疏体素变分自编码器的结合,在无需等值面提取或启发式网格化的情况下,实现了具有复杂几何结构和良好拓扑保持性的高效显式网格合成。

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LATO 的新发明,它的目标是让电脑能像人类艺术家一样,快速、精准地“画”出 3D 模型(比如角色、建筑、道具),而且画出来的模型结构非常完美,可以直接拿去用,不需要后期修补。

为了让你更容易理解,我们可以把生成 3D 模型的过程想象成**“用乐高积木搭建一座城堡”**。

1. 以前的难题:要么“一团浆糊”,要么“累死累活”

在 LATO 出现之前,生成 3D 模型主要有两种流派,但都有大毛病:

  • 流派一:隐式场(Implicit Fields)——“像做泥塑”

    • 原理:电脑先想象一团看不见的“泥巴”(数学上的隐式场),然后像用模具压一样,把表面的泥巴切下来变成模型。
    • 比喻:这就像你捏了一个泥人,最后切出来时,表面全是密密麻麻、乱七八糟的小三角片(就像被切碎的豆腐渣)。
    • 缺点:虽然形状像,但结构太乱。如果你想给这个泥人穿上衣服(绑定骨骼)或者做动画,这些乱糟糟的“碎片”根本没法用。而且,如果泥人中间有个洞(比如耳朵),这种算法通常要求泥人必须是“密封”的,不能有空洞,这限制了很多创意。
  • 流派二:自回归模型(Autoregressive)——“像排排坐的蚂蚁”

    • 原理:电脑像蚂蚁搬家一样,一个面一个面地“数”着生成模型。
    • 比喻:这就像你让一只蚂蚁从第一个积木开始,一个一个往后搭。
    • 缺点:如果城堡很大(细节很多),蚂蚁得排成长长的队伍,速度极慢,而且排到后面容易“断片”,导致城堡缺胳膊少腿(模型破碎)。

2. LATO 的绝招:给积木装上“导航仪”和“连接图”

LATO 发明了一种全新的方法,它结合了上述两者的优点,既快又准。它的核心思想可以分三步来理解:

第一步:给积木装上“导航仪”(顶点位移场 VDF)

以前的模型只告诉电脑“这里有一块积木”,但没说“这块积木的角在哪里”。
LATO 发明了一种叫 VDF(顶点位移场) 的东西。

  • 比喻:想象你在乐高积木的每一个表面贴了一张**“寻宝地图”**。这张地图不仅告诉你“这里有积木”,还明确指着:“往左走 1 厘米是角 A,往右走 1 厘米是角 B"。
  • 作用:这样,电脑在生成时,不仅知道积木在哪,还精确知道每个顶点(角) 的具体位置。这就解决了“泥塑”表面乱糟糟的问题。

第二步:把地图压缩成“加密压缩包”(T-Voxels)

有了这么多详细的地图,数据量太大了。LATO 用一种特殊的“压缩技术”(稀疏体素 VAE),把这些地图压缩成一个个**“智能积木块”(T-Voxels)**。

  • 比喻:这就像把一座城市的详细规划图,压缩成了几个**“魔法方块”**。每个方块里都藏着这座城市的结构密码(哪里是墙,哪里是门,哪里是连接点)。
  • 关键点:这些方块不仅记录了“哪里有东西”,还记录了**“这些东西是怎么连在一起的”**(拓扑结构)。

第三步:像“剥洋葱”一样还原模型(流匹配 Flow Matching)

生成模型时,LATO 不是一下子全画出来,而是分两步走:

  1. 先搭骨架:先生成那些“魔法方块”的大致分布,确定城堡大概长什么样(哪里有大楼,哪里有空地)。
  2. 再填细节:然后像剥洋葱一样,一层层把方块细化。电脑会问:“这个方块里到底有几个顶点?它们之间怎么连线?”
  • 比喻:就像先画出城堡的轮廓,然后慢慢把窗户、门、楼梯的细节一个个“长”出来。最后,电脑会直接画出**“连接说明书”**,告诉每个积木块该和谁连在一起。

3. LATO 带来的改变

  • 速度快:它不像蚂蚁排队那样慢,而是像**“瞬间成像”**,几秒钟就能生成复杂的模型。
  • 结构完美:生成的模型没有乱糟糟的碎片,也没有破洞。它的线条(拓扑结构)非常清晰,就像人类艺术家画的一样,可以直接拿去给游戏角色做动画、做变形
  • 能处理“烂”数据:以前的模型怕“破洞”或“非密封”的物体(比如一个没盖子的杯子),但 LATO 可以完美生成这些,因为它不依赖“密封”的假设。

总结

如果把生成 3D 模型比作**“盖房子”**:

  • 以前的方法要么是**“用泥浆糊墙”(形状像但没法装修),要么是“一块砖一块砖地数”**(太慢且容易数错)。
  • LATO 则是直接拿到了**“带有详细施工图纸的预制件”**。它不仅能快速把房子盖起来,还能保证每一根梁、每一块砖的连接方式都完美符合建筑规范,盖好后直接就能住人(直接用于游戏或工业)。

这项技术让 AI 生成的 3D 内容从“只能看”变成了“真正能用”,是 3D 创作领域的一大飞跃。