WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

Dit paper introduceert Waffle, een nieuwe fijne-tuningstrategie die gebruikmaakt van structuurbewuste aandacht en contrastief leren om multimodale modellen te verbeteren voor het automatisch genereren van HTML-code uit UI-ontwerpen, wat resulteert in aanzienlijk betere prestaties op bestaande en nieuwe benchmarks.

Shanchao Liang, Nan Jiang, Shangshu Qian, Lin Tan

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een architect bent die een prachtige tekening maakt van een huis. Nu wil je die tekening omzetten in een echt, bewoonbaar huis. In de digitale wereld is dat precies wat webontwikkelaars doen: ze nemen een plaatje van een website en schrijven de code (HTML en CSS) die ervoor zorgt dat die website in je browser verschijnt.

Het probleem is dat dit heel lastig is. De code is als een ingewikkeld legpuzzel met duizenden stukjes die op elkaar moeten passen. Als je één stukje verkeerd legt, valt het hele huis misschien in elkaar.

Recente kunstmatige intelligentie (AI) kan al best goed code schrijven, maar als het gaat om het vertalen van een plaatje naar code, maken deze AI's vaak slordige fouten. Ze zien de details niet goed en bouwen het huis dan ook niet helemaal zoals bedoeld.

De onderzoekers van deze paper (WAFFLE) hebben een slimme nieuwe manier bedacht om deze AI te trainen. Ze noemen hun methode WAFFLE. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Blinde" Architect

Stel je voor dat je een AI vraagt om een huis te bouwen op basis van een foto.

  • Huidige AI: Kijkt naar de foto en zegt: "Oké, ik zie een deur en twee ramen." Maar hij vergeet dat de deur onder het raam moet zitten, of dat de muren van de buren ook invloed hebben op hoe jouw muur eruitziet. Hij bouwt een huis dat er op de foto wel goed uitziet, maar dat in werkelijkheid instort of raar staat.
  • De uitdaging: De AI moet twee dingen tegelijk leren:
    1. De structuur begrijpen (hoe de muren op elkaar staan).
    2. De kleine verschillen zien (is dat raam nu 2 centimeter breder of niet?).

2. De Oplossing: WAFFLE (De Slimme Bouwmeester)

WAFFLE is geen nieuwe AI, maar een trainingsmethode die bestaande AI's slimmer maakt. Het doet dit met twee trucjes:

Truc 1: De "Familie-Connectie" (Structure-Aware Attention)

In een huis (en in HTML-code) hebben onderdelen familiebanden.

  • Een deur is een kind van de muur. Als de muur verandert, verandert de deur ook.
  • De deur en het raam zijn buren (zussen/broers). Als de deur te breed wordt, moet het raam misschien opschuiven.

De meeste AI's kijken naar alles door elkaar. WAFFLE leert de AI specifiek om te kijken naar:

  • De ouders: "Kijk naar de muur waar ik aan hang."
  • De buren: "Kijk naar wat er naast mij staat."
  • Zelf: "Kijk goed naar mezelf."

De analogie: Stel je voor dat je een groep kinderen (de code) in een klaslokaal zet. Normaal praten ze allemaal door elkaar. WAFFLE geeft ze een speciale bril waardoor ze alleen naar hun ouders en hun directe buren kunnen kijken. Zo weten ze precies hoe ze zich moeten gedragen zonder de rest van de klas te verstoren. Hierdoor bouwt de AI veel strakkere, logischere websites.

Truc 2: De "Vind de Verschil" Spel (Contrastive Learning)

Soms lijken twee websites bijna hetzelfde, maar is er één klein verschil (bijvoorbeeld: de knop is net ietsje hoger). Huidige AI's zien dit verschil niet en maken voor beide plaatjes exact dezelfde code.

WAFFLE speelt een spelletje "Vind het verschil" met de AI.

  • De AI krijgt twee bijna-identieke plaatjes.
  • De AI moet de code schrijven.
  • Als de AI voor beide plaatjes dezelfde code maakt, krijgt hij een boete (verlies).
  • De AI moet leren: "Oh, bij plaatje B is de knop net ietsje hoger, dus ik moet de code daar net iets anders maken!"

De analogie: Het is alsof je een kunstenaar twee bijna-identieke schilderijen laat zien. De kunstenaar moet leren dat hij bij het tweede schilderij de blauwe verf net iets donkerder moet maken, anders ziet hij het verschil niet. WAFFLE traint de AI om deze subtiele verschillen te "proeven".

3. Het Resultaat: Een Perfect Huis

De onderzoekers hebben deze methode getest. Het resultaat?

  • De AI's die met WAFFLE zijn getraind, bouwen websites die er veel meer op lijken dan de originele tekeningen.
  • Ze maken minder fouten in de structuur (geen instortende muren).
  • Ze zien de kleine details (de juiste kleur, de juiste afstand).

Het is alsof je van een beginnende timmerman (de oude AI) een meesterbouwer maakt (de WAFFLE-AI) die niet alleen de planken in elkaar slaat, maar ook precies weet hoe ze in het totale plaatje passen.

Samenvatting in één zin

WAFFLE is een slimme trainingsmethode die AI's leert om niet alleen naar plaatjes te kijken, maar ook te begrijpen hoe de bouwblokken van een website met elkaar verbonden zijn en hoe ze kleine verschillen moeten zien, zodat ze perfecte websites kunnen bouwen.