Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

本論文は、静的 UI からフルスタック開発までを網羅する階層的ベンチマーク「Vision2Web」と、GUI エージェント検証器および VLM ベースのジャッジによるワークフロー検証手法を提案し、現状の最先端モデルでもフルスタック開発において大きな性能課題が残っていることを明らかにしたものである。

Zehai He, Wenyi Hong, Zhen Yang, Ziyang Pan, Mingdao Liu, Xiaotao Gu, Jie Tang

公開日 2026-03-30
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

Vision2Web:AI 建築家のための「超・実践テスト」の紹介

この論文は、**「AI に『ウェブサイト』を作らせるテスト」**について書かれています。

最近の AI(大規模言語モデル)は、コードを書くのが上手になりました。しかし、「本当に複雑なウェブサイトを一から作れるのか?」を測る、しっかりとしたテストがまだありませんでした。そこで、研究者たちは**「Vision2Web(ビジョン・トゥ・ウェブ)」**という新しいテスト基準を作りました。

これをわかりやすく説明するために、**「AI を建築家(大工さん)に例えて」**考えてみましょう。


1. 従来のテストは「お絵かき」だけだった

これまでの AI のテストは、主に「この部屋の間取り図(コード)を書いて」というレベルでした。

  • SWE-Bench などの既存テスト: 「壁のひび割れを直す(バグ修正)」や「窓を一つ増やす(機能追加)」のような、部分的な作業しか見ていませんでした。
  • デザインからコードへのテスト: 「この絵をそのまま写し取る」だけでした。

しかし、現実のウェブサイト開発は、「設計図(デザイン)」を見て、「壁(フロントエンド)」を建て、**「配管や電気(バックエンド)」を張り巡らせ、「住人が快適に住める家(フルスタック)」**を完成させるまでが必要です。これまでのテストでは、この「家全体を建てる力」は測れていませんでした。

2. Vision2Web:3 つのレベルで試す「建築試験」

Vision2Web は、難易度が上がる3 つのレベルで AI を試します。

  • レベル 1:静かな写真(静的 Web ページ)
    • 例え: 「この写真(デザイン図)を、そのまま壁紙として貼ってください」。
    • 内容: デスクトップ、タブレット、スマホなど、画面サイズに合わせてデザインを忠実に再現できるか?
  • レベル 2:動くおもちゃ(インタラクティブなフロントエンド)
    • 例え: 「部屋と部屋をつなぐドアを開けたり、階段を登ったりできる家を作ってください」。
    • 内容: 複数のページを行き来したり、ボタンを押すと画面が変わったりする「動き」があるサイトを作れるか?
  • レベル 3:完全なマンション(フルスタック・ウェブサイト)
    • 例え: 「電気、水道、セキュリティ、住人の管理システムまで含めた、完璧なマンションを建ててください」。
    • 内容: データの保存、ログイン機能、複雑な処理など、裏側(サーバー)も含めた完全なシステムを作れるか?

3. 採点方法:「AI 検査員」と「AI 審査員」のダブルチェック

ここがこのテストのすごいところです。AI が作ったサイトが「本当に良いか」を、人間が一つ一つチェックするのは大変です。そこで、2 人の AI 助手に採点させます。

  • 検査員(GUI エージェント):
    • 役割: 「実際に住んでみる」人。
    • 行動: 「ログインボタンを押す」「カートに入れる」「ページを移動する」といった実際の操作を自動で行い、「ちゃんと動くか?」をチェックします。
  • 審査員(VLM ジャッジ):
    • 役割: 「設計図と見比べる」人。
    • 行動: 完成したサイトの画面と、元のデザイン図(写真)を AI が比較し、「色は合ってる?」「ボタンは正しい位置にある?」という見た目の美しさを採点します。

この「動くか(機能)」と「綺麗か(見た目)」の両方を、AI 同士で厳しくチェックする仕組みが「ワークフローベースの検証」です。

4. 実験結果:AI は「部分」は得意だが「全体」は苦手

このテストで、最新の AI 8 種類をテストしたところ、以下のような結果が出ました。

  • レベル 1(写真): 多くの AI が上手に作れました。
  • レベル 2(動き): 難易度が上がると、AI は迷子になったり、ボタンが動かなかったりし始めます。
  • レベル 3(完全な家): ここが最大の壁でした。
    • 最も優秀な AI でも、複雑なシステムを完成させるのは非常に苦戦しました。
    • 「ログインはできたけど、データ保存ができなかった」「ページは動いたけど、デザインが崩れていた」といった、「全体を統括する力」の不足が浮き彫りになりました。

特に、**「SaaS(業務システム)」**のような複雑なサイトを作るのは、現在の AI にとってまだ「無理ゲー」に近い状態です。

5. この研究の意義

この論文は、**「AI が本当に使えるようになるには、単にコードを書くだけでなく、複雑なプロジェクトを『全体』として管理する力が不可欠だ」**と教えてくれました。

  • 現状: AI は「良い職人」にはなれたが、「大工長(プロジェクトマネージャー)」にはまだなれていない。
  • 未来: このテスト(Vision2Web)を使って、AI が「全体をどう管理するか」を鍛えれば、将来的には人間が指示するだけで、完璧なウェブサイトが自動で完成する日が来るかもしれません。

まとめ

Vision2Web は、AI 建築家たちに**「写真写し取り」から「マンション建設」までを課し、「動くか」「綺麗か」を AI 同士で厳しく審査する**新しいテスト場です。
今の AI は「部分」は得意ですが、「全体」を任せるにはまだ修行が必要だ、という重要な発見をもたらしました。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →