Each language version is independently generated for its own context, not a direct translation.

この論文は、**「WAFFLE（ワッフル）」という新しい技術について書かれています。これは、AI（人工知能）が「ウェブサイトのデザイン画像を見て、すぐに動くウェブページのコード（HTML/CSS）を書くこと」**を、より上手に、より正確にできるようにするための方法です。

まるで、AI が「絵を見て、その絵を忠実に再現する料理人」になるための特別なトレーニング方法のようなものです。

以下に、専門用語を避け、わかりやすい例え話で解説します。

🍳 問題：なぜ AI は「絵からコード」を作るのが苦手なのか？

普段、私たちがウェブサイトを作る時、デザイナーが描いた「絵（デザイン）」を、エンジニアが「言葉（コード）」に翻訳します。
しかし、AI にこの仕事をさせると、2 つの大きな問題が起きることがありました。

「構造」の理解が甘い
- 例え話: 家づくりを想像してください。壁（親要素）の色を変えると、その中にある家具（子要素）の色も一緒に変わることがあります。また、隣の部屋（兄弟要素）の広さが変わると、自分の部屋の広さにも影響します。
- AI の失敗: 従来の AI は、この「家全体の構造ルール」を無視して、バラバラの部品を適当に組み合わせてしまうことがありました。結果、見た目は似ていても、コードの構造がぐちゃぐちゃで、後で修正が効かないものになってしまいます。
「微妙な違い」が見抜けない
- 例え話: 2 枚の絵があるとします。1 枚は「青いボタン」、もう 1 枚は「少しだけ色が違う薄い青のボタン」です。人間ならすぐわかりますが、AI は「どちらも青いボタンだ」と思い込み、全く同じコードを生成してしまいました。
- AI の失敗: 画像の細かな違い（ピクセルレベルの変化）と、コードの細かな違い（色やサイズの数値）を結びつけるのが苦手でした。

🧇 解決策：WAFFLE（ワッフル）の 2 つの魔法

この論文の著者たちは、AI をもっと賢くするために、2 つの特別なトレーニング（魔法）を考案しました。

1. 「構造を気にするメガネ」をかける（構造認識アテンション）

何をするの？
AI がコードを書くとき、ただ文字を並べるだけでなく、**「この部分は親（壁）のルールに従う」「この部分は隣の部屋（兄弟）と関係がある」**というルールを、AI の頭の中に強く刻み込みます。
例え話:
料理人がレシピを書くとき、「卵を割る」と書くだけでなく、「卵はボウル（親）の中で割る」「隣のスプーン（兄弟）を使わない」という**「料理の構造ルール」**を常に意識するように訓練します。
これにより、AI は「家づくりのルール」を理解し、崩れにくい、正しい構造のコードを書けるようになります。

2. 「違いを見分けるトレーニング」をする（対比学習）

何をするの？
AI に、**「ほとんど同じだが、少しだけ違う」**画像とコードのペアを大量に見せます。
- 画像 A：青いボタン
- 画像 B：少し薄い青のボタン
- 正解：画像 A には青いコード、画像 B には薄い青のコード
例え話:
料理人に「塩を少し多めに入れたスープ」と「塩を少し控えめに入れたスープ」を見せ、「この 2 つは味が違うから、レシピも変えなさい」と厳しく指導します。
これにより、AI は「あ、この画像のボタンは少し色が違うんだから、コードも少し変えなきゃ！」と、微妙な違いに敏感になるのです。

🏆 結果：どれくらい良くなったの？

この「WAFFLE」で訓練された AI は、従来の方法や、最新の巨大な AI（GPT-4o など）よりも素晴らしい結果を出しました。

構造の正確さ: 9% 以上も向上。家の骨組みがしっかりしました。
見た目の再現度: 画像とコードの一致度が大幅にアップ。
人間の評価: 人間が見ても、「WAFFLE が作ったページの方が、元のデザインに近い！」と評価されました。

特に、**「中間で間違えても、すぐに軌道修正できる」**という点も強みです。
（例え話：料理中に塩を入れすぎちゃった！でも、WAFFLE なら「あ、塩が多かったな」と気づいて、次の工程で調整して美味しいスープを作れます。従来の AI は「塩入れすぎ＝失敗」で諦めてしまうことがありました。）

💡 まとめ

WAFFLEは、AI に「ウェブサイトの構造ルール」を教え込み、「画像の細かな違い」を見抜く力を身につけさせる、特別な教育プログラムです。

これにより、AI は単に「絵を真似る」だけでなく、**「エンジニアのように考え、正確で美しいウェブサイトを作る」**ことができるようになりました。この技術は、将来のウェブ制作を劇的にスピードアップさせる可能性を秘めています。

Each language version is independently generated for its own context, not a direct translation.

WAFFLE: 自動フロントエンド開発のためのマルチモーダルモデルのファインチューニング

技術的サマリー（日本語）

本論文は、UI デザイン画像から HTML/CSS コードを生成するタスクにおける課題を解決し、その精度を大幅に向上させる新しいファインチューニング手法「WAFFLE」を提案する研究です。

1. 背景と課題 (Problem)

Web 開発において、UI デザインを機能的な Web ページに変換する作業は、HTML の階層構造やスタイルの複雑さにより、初心者から熟練者までにとって困難です。大規模言語モデル（LLM）やマルチモーダル大規模言語モデル（MLLM）はコード生成において有望ですが、UI 画像から HTML コードを生成する際には以下の 2 つの主要な課題が存在します。

HTML の階層構造の理解不足: MLLM が HTML の構造的知識（親要素のスタイルが子要素に継承される、兄弟要素同士がレイアウトに影響し合う、兄弟のサブツリーは互いに影響しない等）を効果的に学習できていない。
視覚的差異とテキスト表現のギャップ: UI デザインの微妙な視覚的差異（例：列の幅のわずかな違いや色の変更）が、生成される HTML コードの差異として正しく反映されない。既存のモデルは、視覚的に異なる入力に対しても同一のコードを生成してしまう傾向がある。

2. 提案手法：WAFFLE (Methodology)

WAFFLE は、上記の課題に対処するために設計されたファインチューニングパイプラインであり、以下の 3 つの主要な技術的要素で構成されています。

2.1 構造化データの変異 (Training Data Mutation)

対照学習（Contrastive Learning）を効果的に機能させるため、既存のデータセット（WebSight-v0.1）から人工的に「変異（Mutation）」を加えたデータを生成します。

失敗分析: 50 件の検証サンプルを分析し、色、サイズ、マージン、フォント、表示属性（display）、位置指定（position）などの 7 つの主要なエラーカテゴリを特定しました。
変異ルール: 分析結果に基づき、HTML/CSS コードに現実的なエラー（例：色の不一致やサイズの変更）を適用し、元の画像と変異後の画像のペアを生成します。これにより、モデルは微妙な視覚的差異をコードの違いとして学習するようになります。

2.2 構造認識アテンション (Structure-Aware Attention)

HTML のドメイン知識をモデルに組み込むため、言語モデルのデコーダに対して新しいアテンション機構を導入します。

3 種類の注意メカニズム:
1. 親アテンション (Parent-Attention): 要素トークンが親要素のトークンに注目（スタイルの継承を反映）。
2. 兄弟アテンション (Sibling-Attention): 要素トークンが直前の兄弟要素のトークンに注目（レイアウトの相互影響を反映）。
3. 自己アテンション (Self-Attention): 同一要素内のトークン間の標準的な注意。
実装: これらのマスクを結合し、デコーダのアテンションヘッドの 4 分の 1 に対してのみ適用します。これにより、特定のヘッドが構造的知識を学習し、残りのヘッドは事前学習された知識を維持しながら両立を図ります。

2.3 対照学習 (Contrastive Learning)

視覚的理解とテキスト理解の整合性を高めるため、対照学習損失（ $L_{cl}$ ）と言語モデル損失（ $L_{lm}$ ）を同時に最適化します。

目的: 対応する UI 画像と HTML コードの埋め込みベクトル間の類似度を最大化し、異なるペア間の類似度を最小化します。これにより、モデルは画像の微妙な違いがコードのどの部分に対応するかを厳密に学習します。

3. 主要な貢献 (Key Contributions)

構造認識アテンションの設計: HTML コード生成において、MLLM が HTML の構造的知識（親・兄弟関係）を学習できるようにする新しいアテンション機構の提案。
対照学習の適用: レンダリングされた UI 画像の詳細と HTML コードの間の整合性を強化し、微妙な視覚的差異を捉える能力を向上させる。
新規データセットの作成: 231,940 組の Web ページと HTML コードのペアを含む新しいデータセット（変異データを含む）の構築。
包括的な実験と評価: 2 つのバックボーンモデル（VLM-WebSight, Moondream2）を用いた大規模な実験により、既存のファインチューニング手法や SOTA 商用モデル（GPT-4o, Gemini 1.5 Pro など）を上回る性能を実証。
モデル非依存性: WAFFLE は特定のモデルに依存せず、任意の Transformer ベースの MLLM に適用可能な汎用的なファインチューニング手法であることを示唆。

4. 実験結果 (Results)

新しいベンチマーク「WebSight-Test」と既存の「Design2Code」において、WAFFLE は標準的なファインチューニング（Standard FT）および商用モデルを凌駕する結果を示しました。

性能向上:
- HTML-Match: 最大 9.00 ポイント（絶対値）向上（VLM-WebSight ベースで 28.00% → 37.00%）。
- CW-SSIM（画像の構造的類似度）: 最大 0.0982 向上。
- CLIP スコア: 最大 32.99 向上。
- LLEM（低レベル要素マッチング）: 最大 27.12 ポイント向上。
SOTA 商用モデルとの比較: WebSight-Test において、VLM-WebSight + WAFFLE は GPT-4o よりも HTML-Match で 25.60 ポイント、CW-SSIM で 0.2339 上回りました。
アブレーション研究:
- 構造認識アテンションと対照学習の両方が性能向上に寄与していることが確認されました。
- 中間生成エラーに対するロバスト性：WAFFLE は中間段階での誤りを修正する能力が高く、CW-SSIM の低下率が標準ファインチューニング（27.55% 低下）に比べ、WAFFLE（4.34% 低下）で大幅に抑制されました。
人間による評価: 生成された Web ページの品質において、WAFFLE は他の手法よりも高いランキングを獲得しました。

5. 意義と結論 (Significance)

WAFFLE は、UI 画像から HTML コードへの生成タスクにおいて、単なる「画像からテキスト」の変換を超え、ドメイン固有の構造的知識と視覚的・テキスト的表現の厳密な整合性を同時に学習させることに成功しました。

実用性: フロントエンド開発の自動化を現実的なものにする可能性を秘めており、特に複雑なレイアウトや微妙なデザインの違いを正確に再現する能力が飛躍的に向上しました。
将来性: 計算コストの増加は限定的（トレーニング時間の約 31% 増）であり、推論速度への影響は最小限です。この手法は、UI-to-Code 生成タスクにおける新しい標準的なファインチューニング戦略として確立される可能性があります。

本論文は、マルチモーダルモデルが特定のドメイン（Web 開発）において、構造的制約を考慮した学習を行うことで、その能力を大幅に拡張できることを示す重要なステップです。

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development