DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation

该论文提出了名为 DOne 的端到端框架,通过解耦结构理解与元素渲染,并引入学习式布局分割、混合元素检索及模式引导生成等创新机制,有效解决了现有视觉语言模型在设计转代码任务中因无法兼顾高层结构与细节而导致的布局失真问题,在新增的高保真基准 HiFi2Code 上显著提升了生成代码的视觉保真度与开发效率。

Xinhao Huang, Jinke Yu, Wenhao Xu, Zeyi Wen, Ying Zhou, Junzhuo Liu, Junhao Ji, Zulong Chen

发布于 2026-04-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 DOne 的新系统,它的核心任务是:把一张网页设计图(比如设计师画的草图或截图),自动变成可以运行的网页代码(HTML/CSS)。

为了让你更容易理解,我们可以把“设计图变代码”这个过程想象成**“装修房子”**。

1. 以前的“装修队”遇到了什么麻烦?(痛点)

在 DOne 出现之前,现有的 AI 工具(就像以前的装修队)在把设计图变成房子时,经常犯两个大错,被称为"整体瓶颈":

  • 错把结构当细节: 它们要么只盯着墙上的画(细节)看,结果把房子的梁柱结构(整体布局)搞歪了;要么只画了个大概的框架,却忘了贴瓷砖、装开关(丢失了具体的图标、按钮等细节)。
  • 顾此失彼: 就像装修师傅,如果让他一次性把整栋别墅的图纸都背下来再施工,他脑子会乱,要么把客厅和卧室的位置搞反,要么把昂贵的进口瓷砖换成了普通的纸板。

结果就是: 生成的网页要么布局歪歪扭扭,要么缺胳膊少腿,看起来像个“山寨版”。

2. DOne 是怎么解决这个问题的?(核心方案)

DOne 的聪明之处在于,它不再让 AI“一口吃成个胖子”,而是把装修过程拆成了三个专业的步骤,就像组建了一个分工明确的超级装修团队

第一步:请了一位“空间规划师”(布局分割模块)

  • 以前: 装修师傅直接对着整张图纸发呆,试图一次性理解所有东西。
  • 现在: DOne 先派一位“空间规划师”进场。他不管墙上的画是什么,他只做一件事:把大房子切分成几个明确的功能区
    • 比如:“这里是客厅(Header)”,“那里是卧室(Sidebar)”,“中间是餐厅(Main Content)”。
    • 比喻: 就像把一张复杂的披萨,先切成几块大的扇形,确保每一块的位置和大小都是对的,而不是试图一次性把上面的所有配料都画出来。

第二步:请了一位“寻宝猎人”(元素检索模块)

  • 以前: 师傅们经常找不到具体的装饰品,或者随便拿个替代品(比如用个红方块代替一个精致的 Logo)。
  • 现在: DOne 派了一位“寻宝猎人”。他的任务是在设计图中精准地找到每一个小零件:那个小小的图标、那个特定的按钮、那张高清的产品图。
    • 他不仅找到它们,还把它们单独打包,贴上标签,确保在后续施工中不会弄丢,也不会用错。
    • 比喻: 就像在装修前,先把所有需要的螺丝、把手、灯具都从仓库里精准地找出来,放在手边,而不是等到砌墙时才发现少了一个把手。

第三步:请了一位“总设计师”(Schema 引导生成)

  • 以前: 师傅们直接开始砌墙,经常砌到一半发现结构不对,得拆了重来。
  • 现在: DOne 让“总设计师”先画一张详细的施工蓝图(JSON 结构)
    • 这张蓝图结合了第一步的“分区”和第二步的“零件”。它明确告诉 AI:“在客厅区域(分区),要安装那个找到的门把手(零件),并且要放在这个坐标上。”
    • 最后,AI 只需要根据这张蓝图去“填肉”(写代码),而不需要再费脑子去想“房子结构该怎么搭”。
    • 比喻: 就像先有了精确的 3D 模型和物料清单,工人只需要按图施工,把砖块和瓷砖贴上去,既快又准。

3. 效果怎么样?(成果)

为了证明 DOne 真的厉害,作者们还做了一个**“高难度装修考试”**(叫 HiFi2Code 数据集),里面的房子结构特别复杂,零件特别多。

  • 考试结果: DOne 的成绩比以前的所有方法都高出一大截(比如视觉相似度提高了 10% 以上)。
  • 人类评价: 让真正的程序员和设计师来挑刺,大家一致认为 DOne 做出来的网页最像原版,而且工作效率提高了 3 倍。以前需要一天才能改好的代码,现在用 DOne 可能只要 3 小时。

总结

简单来说,DOne 就是给 AI 装上了“分步思考”的大脑

它不再试图一次性搞定所有事情,而是学会了:

  1. 先分块(把大房子切开);
  2. 再找料(把零件找齐);
  3. 最后按图施工(精准组装)。

这种方法让 AI 从“只会画草图的学徒”变成了“能搞定复杂豪宅的资深装修队”,真正实现了从设计图到高质量代码的“高保真”转换。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →