WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

本論文は、HTML の階層構造の理解と UI 画像とコードの対照的整合性を向上させる新たなファインチューニング手法「WAFFLE」を提案し、UI デザインから Web ページを自動生成するタスクにおいて既存手法を大幅に上回る性能を達成したことを示しています。

Shanchao Liang, Nan Jiang, Shangshu Qian, Lin Tan

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「WAFFLE(ワッフル)」という新しい技術について書かれています。これは、AI(人工知能)が「ウェブサイトのデザイン画像を見て、すぐに動くウェブページのコード(HTML/CSS)を書くこと」**を、より上手に、より正確にできるようにするための方法です。

まるで、AI が「絵を見て、その絵を忠実に再現する料理人」になるための特別なトレーニング方法のようなものです。

以下に、専門用語を避け、わかりやすい例え話で解説します。


🍳 問題:なぜ AI は「絵からコード」を作るのが苦手なのか?

普段、私たちがウェブサイトを作る時、デザイナーが描いた「絵(デザイン)」を、エンジニアが「言葉(コード)」に翻訳します。
しかし、AI にこの仕事をさせると、2 つの大きな問題が起きることがありました。

  1. 「構造」の理解が甘い

    • 例え話: 家づくりを想像してください。壁(親要素)の色を変えると、その中にある家具(子要素)の色も一緒に変わることがあります。また、隣の部屋(兄弟要素)の広さが変わると、自分の部屋の広さにも影響します。
    • AI の失敗: 従来の AI は、この「家全体の構造ルール」を無視して、バラバラの部品を適当に組み合わせてしまうことがありました。結果、見た目は似ていても、コードの構造がぐちゃぐちゃで、後で修正が効かないものになってしまいます。
  2. 「微妙な違い」が見抜けない

    • 例え話: 2 枚の絵があるとします。1 枚は「青いボタン」、もう 1 枚は「少しだけ色が違う薄い青のボタン」です。人間ならすぐわかりますが、AI は「どちらも青いボタンだ」と思い込み、全く同じコードを生成してしまいました。
    • AI の失敗: 画像の細かな違い(ピクセルレベルの変化)と、コードの細かな違い(色やサイズの数値)を結びつけるのが苦手でした。

🧇 解決策:WAFFLE(ワッフル)の 2 つの魔法

この論文の著者たちは、AI をもっと賢くするために、2 つの特別なトレーニング(魔法)を考案しました。

1. 「構造を気にするメガネ」をかける(構造認識アテンション)

  • 何をするの?
    AI がコードを書くとき、ただ文字を並べるだけでなく、**「この部分は親(壁)のルールに従う」「この部分は隣の部屋(兄弟)と関係がある」**というルールを、AI の頭の中に強く刻み込みます。
  • 例え話:
    料理人がレシピを書くとき、「卵を割る」と書くだけでなく、「卵はボウル(親)の中で割る」「隣のスプーン(兄弟)を使わない」という**「料理の構造ルール」**を常に意識するように訓練します。
    これにより、AI は「家づくりのルール」を理解し、崩れにくい、正しい構造のコードを書けるようになります。

2. 「違いを見分けるトレーニング」をする(対比学習)

  • 何をするの?
    AI に、**「ほとんど同じだが、少しだけ違う」**画像とコードのペアを大量に見せます。
    • 画像 A:青いボタン
    • 画像 B:少し薄い青のボタン
    • 正解:画像 A には青いコード、画像 B には薄い青のコード
  • 例え話:
    料理人に「塩を少し多めに入れたスープ」と「塩を少し控えめに入れたスープ」を見せ、「この 2 つは味が違うから、レシピも変えなさい」と厳しく指導します。
    これにより、AI は「あ、この画像のボタンは少し色が違うんだから、コードも少し変えなきゃ!」と、微妙な違いに敏感になるのです。

🏆 結果:どれくらい良くなったの?

この「WAFFLE」で訓練された AI は、従来の方法や、最新の巨大な AI(GPT-4o など)よりも素晴らしい結果を出しました。

  • 構造の正確さ: 9% 以上も向上。家の骨組みがしっかりしました。
  • 見た目の再現度: 画像とコードの一致度が大幅にアップ。
  • 人間の評価: 人間が見ても、「WAFFLE が作ったページの方が、元のデザインに近い!」と評価されました。

特に、**「中間で間違えても、すぐに軌道修正できる」**という点も強みです。
(例え話:料理中に塩を入れすぎちゃった!でも、WAFFLE なら「あ、塩が多かったな」と気づいて、次の工程で調整して美味しいスープを作れます。従来の AI は「塩入れすぎ=失敗」で諦めてしまうことがありました。)


💡 まとめ

WAFFLEは、AI に「ウェブサイトの構造ルール」を教え込み、「画像の細かな違い」を見抜く力を身につけさせる、特別な教育プログラムです。

これにより、AI は単に「絵を真似る」だけでなく、**「エンジニアのように考え、正確で美しいウェブサイトを作る」**ことができるようになりました。この技術は、将来のウェブ制作を劇的にスピードアップさせる可能性を秘めています。