DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation

El artículo presenta DOne, un marco de trabajo que decodifica la comprensión estructural y la renderización de elementos para superar las limitaciones de los modelos de visión y lenguaje en la generación de código a partir de diseños, logrando una mayor fidelidad visual y productividad mediante su nuevo benchmark HiFi2Code.

Xinhao Huang, Jinke Yu, Wenhao Xu, Zeyi Wen, Ying Zhou, Junzhuo Liu, Junhao Ji, Zulong Chen

Publicado 2026-04-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que el proceso de convertir un diseño web en código real es como intentar construir una casa perfecta basándose únicamente en una fotografía de la fachada.

El problema que resuelve este paper, "DOne", es que los "arquitectos" actuales (los modelos de Inteligencia Artificial) a menudo cometen errores graves: o bien construyen la estructura de la casa torcida, o bien olvidan poner las ventanas y las puertas, o simplemente ponen un cartel que dice "ventana aquí" en lugar de poner una ventana real.

Aquí te explico cómo funciona DOne usando analogías sencillas:

1. El Problema: El "Cuello de Botella" de Verlo Todo de Una Vez

Imagina que le pides a un pintor muy talentoso (la Inteligencia Artificial) que copie un cuadro complejo lleno de miles de detalles. Si le das el cuadro entero de una sola vez, el pintor se abruma.

  • Lo que pasa ahora: El pintor intenta copiar todo el cuadro de un solo golpe. Como es demasiado complejo, termina haciendo la estructura de la casa (el esqueleto) un poco chueca y olvidando los detalles pequeños como los botones o los logotipos, poniendo en su lugar cuadros grises genéricos.
  • El resultado: El código generado se ve "aproximadamente" bien, pero si te acercas, todo está mal colocado o faltan piezas.

2. La Solución: DOne (Desacoplar para Triunfar)

En lugar de pedirle al pintor que haga todo de una vez, DOne divide el trabajo en tres especialistas que trabajan en equipo. Es como tener un equipo de construcción en lugar de un solo artista solitario.

Paso 1: El "Arquitecto de Planos" (Segmentación de Diseño)

En lugar de mirar la foto entera, DOne primero envía a un especialista a dividir la imagen en bloques lógicos.

  • La analogía: Imagina que tomas la foto de la web y la cortas con tijeras mágicas en piezas: "Aquí está el menú de arriba", "Aquí está la barra lateral", "Aquí es el contenido principal".
  • Lo que hace: Crea un mapa limpio y ordenado. Ya no es un caos visual, sino una estructura clara. Esto evita que el código se construya "chueco".

Paso 2: El "Cazador de Tesoros" (Recuperación de Elementos)

Una vez que tenemos los bloques, necesitamos llenarlos. Aquí entra el segundo especialista.

  • El problema: En las webs hay miles de cosas pequeñas: iconos diminutos, botones, logotipos. A veces son tan pequeños que la IA los ignora o los dibuja mal.
  • La analogía: Imagina un cazador de tesoros con un detector de metales muy preciso. Este especialista escanea la imagen original y recoge físicamente cada icono, cada botón y cada imagen pequeña, asegurándose de que no se pierda ni uno.
  • Lo que hace: Si el diseño tiene un logo de un gato, este especialista lo "corta" y lo guarda listo para usar, en lugar de decirle al código "dibuja un gato".

Paso 3: El "Jefe de Obra" (Generación Guiada por Esquema)

Ahora tenemos los bloques (el mapa) y las piezas sueltas (los tesoros). El tercer paso es ensamblarlo todo.

  • La analogía: En lugar de dejar que el pintor adivine dónde va cada cosa, le damos un plano de construcción (un esquema JSON) que le dice exactamente: "En el bloque 'Cabecera', pega el logo que recogimos en la posición X, Y".
  • Lo que hace: La IA ya no tiene que adivinar la estructura ni buscar los detalles. Solo tiene que seguir las instrucciones precisas del plano, usando los materiales reales que ya recogimos.

3. ¿Por qué es un éxito? (Los Resultados)

Los autores probaron su método con un nuevo banco de pruebas llamado HiFi2Code (que son diseños web muy complejos y reales, no simples dibujos).

  • Antes: Los métodos anteriores fallaban mucho en la estructura y perdían los detalles visuales.
  • Ahora con DOne:
    • Precisión: El código generado se parece mucho más al diseño original (como un 10% mejor en calidad visual).
    • Productividad: Los desarrolladores humanos que usan esta herramienta terminan su trabajo 3 veces más rápido.
    • Fidelidad: Ya no aparecen "marcadores de posición" grises; los iconos y logos reales están en su lugar exacto.

En resumen

DOne es como cambiar de pedirle a una sola persona que "intente adivinar cómo se ve esta web" a tener un equipo organizado: uno que divide la casa en habitaciones, otro que recoge todos los muebles y adornos, y un tercero que sigue un plano exacto para colocar todo en su sitio. El resultado es una casa (o una web) que se ve exactamente como el plano original, sin errores y mucho más rápido.