DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 DOne 的新系统，它的核心任务是：把一张网页设计图（比如设计师画的草图或截图），自动变成可以运行的网页代码（HTML/CSS）。

为了让你更容易理解，我们可以把“设计图变代码”这个过程想象成**“装修房子”**。

1. 以前的“装修队”遇到了什么麻烦？（痛点）

在 DOne 出现之前，现有的 AI 工具（就像以前的装修队）在把设计图变成房子时，经常犯两个大错，被称为"整体瓶颈"：

错把结构当细节： 它们要么只盯着墙上的画（细节）看，结果把房子的梁柱结构（整体布局）搞歪了；要么只画了个大概的框架，却忘了贴瓷砖、装开关（丢失了具体的图标、按钮等细节）。
顾此失彼： 就像装修师傅，如果让他一次性把整栋别墅的图纸都背下来再施工，他脑子会乱，要么把客厅和卧室的位置搞反，要么把昂贵的进口瓷砖换成了普通的纸板。

结果就是： 生成的网页要么布局歪歪扭扭，要么缺胳膊少腿，看起来像个“山寨版”。

2. DOne 是怎么解决这个问题的？（核心方案）

DOne 的聪明之处在于，它不再让 AI“一口吃成个胖子”，而是把装修过程拆成了三个专业的步骤，就像组建了一个分工明确的超级装修团队：

第一步：请了一位“空间规划师”（布局分割模块）

以前： 装修师傅直接对着整张图纸发呆，试图一次性理解所有东西。
现在： DOne 先派一位“空间规划师”进场。他不管墙上的画是什么，他只做一件事：把大房子切分成几个明确的功能区。
- 比如：“这里是客厅（Header）”，“那里是卧室（Sidebar）”，“中间是餐厅（Main Content）”。
- 比喻： 就像把一张复杂的披萨，先切成几块大的扇形，确保每一块的位置和大小都是对的，而不是试图一次性把上面的所有配料都画出来。

第二步：请了一位“寻宝猎人”（元素检索模块）

以前： 师傅们经常找不到具体的装饰品，或者随便拿个替代品（比如用个红方块代替一个精致的 Logo）。
现在： DOne 派了一位“寻宝猎人”。他的任务是在设计图中精准地找到每一个小零件：那个小小的图标、那个特定的按钮、那张高清的产品图。
- 他不仅找到它们，还把它们单独打包，贴上标签，确保在后续施工中不会弄丢，也不会用错。
- 比喻： 就像在装修前，先把所有需要的螺丝、把手、灯具都从仓库里精准地找出来，放在手边，而不是等到砌墙时才发现少了一个把手。

第三步：请了一位“总设计师”（Schema 引导生成）

以前： 师傅们直接开始砌墙，经常砌到一半发现结构不对，得拆了重来。
现在： DOne 让“总设计师”先画一张详细的施工蓝图（JSON 结构）。
- 这张蓝图结合了第一步的“分区”和第二步的“零件”。它明确告诉 AI：“在客厅区域（分区），要安装那个找到的门把手（零件），并且要放在这个坐标上。”
- 最后，AI 只需要根据这张蓝图去“填肉”（写代码），而不需要再费脑子去想“房子结构该怎么搭”。
- 比喻： 就像先有了精确的 3D 模型和物料清单，工人只需要按图施工，把砖块和瓷砖贴上去，既快又准。

3. 效果怎么样？（成果）

为了证明 DOne 真的厉害，作者们还做了一个**“高难度装修考试”**（叫 HiFi2Code 数据集），里面的房子结构特别复杂，零件特别多。

考试结果： DOne 的成绩比以前的所有方法都高出一大截（比如视觉相似度提高了 10% 以上）。
人类评价： 让真正的程序员和设计师来挑刺，大家一致认为 DOne 做出来的网页最像原版，而且工作效率提高了 3 倍。以前需要一天才能改好的代码，现在用 DOne 可能只要 3 小时。

总结

简单来说，DOne 就是给 AI 装上了“分步思考”的大脑。

它不再试图一次性搞定所有事情，而是学会了：

先分块（把大房子切开）；
再找料（把零件找齐）；
最后按图施工（精准组装）。

这种方法让 AI 从“只会画草图的学徒”变成了“能搞定复杂豪宅的资深装修队”，真正实现了从设计图到高质量代码的“高保真”转换。

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation

1. 以前的“装修队”遇到了什么麻烦？（痛点）

2. DOne 是怎么解决这个问题的？（核心方案）

第一步：请了一位“空间规划师”（布局分割模块）

第二步：请了一位“寻宝猎人”（元素检索模块）

第三步：请了一位“总设计师”（Schema 引导生成）

3. 效果怎么样？（成果）

总结

DOne 论文技术总结

1. 研究背景与问题定义

2. 方法论：DOne 框架

2.1 网页布局分割 (Layout Segmentation)

2.2 细粒度视觉元素检索 (Fine-Grained Element Retrieval)

2.3 模式引导的代码生成 (Schema-Guided Generation)

3. 关键贡献

4. 实验结果

5. 意义与展望

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation

1. 以前的“装修队”遇到了什么麻烦？（痛点）

2. DOne 是怎么解决这个问题的？（核心方案）

第一步：请了一位“空间规划师”（布局分割模块）

第二步：请了一位“寻宝猎人”（元素检索模块）

第三步：请了一位“总设计师”（Schema 引导生成）

3. 效果怎么样？（成果）

总结

DOne 论文技术总结

1. 研究背景与问题定义

2. 方法论：DOne 框架

2.1 网页布局分割 (Layout Segmentation)

2.2 细粒度视觉元素检索 (Fine-Grained Element Retrieval)

2.3 模式引导的代码生成 (Schema-Guided Generation)

3. 关键贡献

4. 实验结果

5. 意义与展望

类似论文

EviSnap: Faithful Evidence-Cited Explanations for Cold-Start Cross-Domain Recommendation

Beyond Case Law: Evaluating Structure-Aware Retrieval and Safety in Statute-Centric Legal QA

X-BCD: Explainable Sensor-Based Behavioral Change Detection in Smart Home Environments

User-Centric Design of UI for Mobile Banking Apps: Improving UI and Features for Better Customer Experience

Robustness Risk of Conversational Retrieval: Identifying and Mitigating Noise Sensitivity in Qwen3-Embedding Model