Each language version is independently generated for its own context, not a direct translation.

Vision2Web：AI 建築家のための「超・実践テスト」の紹介

この論文は、**「AI に『ウェブサイト』を作らせるテスト」**について書かれています。

最近の AI（大規模言語モデル）は、コードを書くのが上手になりました。しかし、「本当に複雑なウェブサイトを一から作れるのか？」を測る、しっかりとしたテストがまだありませんでした。そこで、研究者たちは**「Vision2Web（ビジョン・トゥ・ウェブ）」**という新しいテスト基準を作りました。

これをわかりやすく説明するために、**「AI を建築家（大工さん）に例えて」**考えてみましょう。

1. 従来のテストは「お絵かき」だけだった

これまでの AI のテストは、主に「この部屋の間取り図（コード）を書いて」というレベルでした。

SWE-Bench などの既存テスト： 「壁のひび割れを直す（バグ修正）」や「窓を一つ増やす（機能追加）」のような、部分的な作業しか見ていませんでした。
デザインからコードへのテスト： 「この絵をそのまま写し取る」だけでした。

しかし、現実のウェブサイト開発は、「設計図（デザイン）」を見て、「壁（フロントエンド）」を建て、**「配管や電気（バックエンド）」を張り巡らせ、「住人が快適に住める家（フルスタック）」**を完成させるまでが必要です。これまでのテストでは、この「家全体を建てる力」は測れていませんでした。

2. Vision2Web：3 つのレベルで試す「建築試験」

Vision2Web は、難易度が上がる3 つのレベルで AI を試します。

レベル 1：静かな写真（静的 Web ページ）
- 例え： 「この写真（デザイン図）を、そのまま壁紙として貼ってください」。
- 内容： デスクトップ、タブレット、スマホなど、画面サイズに合わせてデザインを忠実に再現できるか？
レベル 2：動くおもちゃ（インタラクティブなフロントエンド）
- 例え： 「部屋と部屋をつなぐドアを開けたり、階段を登ったりできる家を作ってください」。
- 内容： 複数のページを行き来したり、ボタンを押すと画面が変わったりする「動き」があるサイトを作れるか？
レベル 3：完全なマンション（フルスタック・ウェブサイト）
- 例え： 「電気、水道、セキュリティ、住人の管理システムまで含めた、完璧なマンションを建ててください」。
- 内容： データの保存、ログイン機能、複雑な処理など、裏側（サーバー）も含めた完全なシステムを作れるか？

3. 採点方法：「AI 検査員」と「AI 審査員」のダブルチェック

ここがこのテストのすごいところです。AI が作ったサイトが「本当に良いか」を、人間が一つ一つチェックするのは大変です。そこで、2 人の AI 助手に採点させます。

検査員（GUI エージェント）：
- 役割： 「実際に住んでみる」人。
- 行動： 「ログインボタンを押す」「カートに入れる」「ページを移動する」といった実際の操作を自動で行い、「ちゃんと動くか？」をチェックします。
審査員（VLM ジャッジ）：
- 役割： 「設計図と見比べる」人。
- 行動： 完成したサイトの画面と、元のデザイン図（写真）を AI が比較し、「色は合ってる？」「ボタンは正しい位置にある？」という見た目の美しさを採点します。

この「動くか（機能）」と「綺麗か（見た目）」の両方を、AI 同士で厳しくチェックする仕組みが「ワークフローベースの検証」です。

4. 実験結果：AI は「部分」は得意だが「全体」は苦手

このテストで、最新の AI 8 種類をテストしたところ、以下のような結果が出ました。

レベル 1（写真）： 多くの AI が上手に作れました。
レベル 2（動き）： 難易度が上がると、AI は迷子になったり、ボタンが動かなかったりし始めます。
レベル 3（完全な家）： ここが最大の壁でした。
- 最も優秀な AI でも、複雑なシステムを完成させるのは非常に苦戦しました。
- 「ログインはできたけど、データ保存ができなかった」「ページは動いたけど、デザインが崩れていた」といった、「全体を統括する力」の不足が浮き彫りになりました。

特に、**「SaaS（業務システム）」**のような複雑なサイトを作るのは、現在の AI にとってまだ「無理ゲー」に近い状態です。

5. この研究の意義

この論文は、**「AI が本当に使えるようになるには、単にコードを書くだけでなく、複雑なプロジェクトを『全体』として管理する力が不可欠だ」**と教えてくれました。

現状： AI は「良い職人」にはなれたが、「大工長（プロジェクトマネージャー）」にはまだなれていない。
未来： このテスト（Vision2Web）を使って、AI が「全体をどう管理するか」を鍛えれば、将来的には人間が指示するだけで、完璧なウェブサイトが自動で完成する日が来るかもしれません。

まとめ

Vision2Web は、AI 建築家たちに**「写真写し取り」から「マンション建設」までを課し、「動くか」「綺麗か」を AI 同士で厳しく審査する**新しいテスト場です。
今の AI は「部分」は得意ですが、「全体」を任せるにはまだ修行が必要だ、という重要な発見をもたらしました。

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

Vision2Web：AI 建築家のための「超・実践テスト」の紹介

1. 従来のテストは「お絵かき」だけだった

2. Vision2Web：3 つのレベルで試す「建築試験」

3. 採点方法：「AI 検査員」と「AI 審査員」のダブルチェック

4. 実験結果：AI は「部分」は得意だが「全体」は苦手

5. この研究の意義

まとめ

Vision2Web: エージェント検証を備えた視覚的 Web 開発のための階層型ベンチマーク

技術的サマリー（日本語）

1. 問題定義と背景

2. 手法とアーキテクチャ

2.1 階層的タスク設計

2.2 ワークフローベースのエージェント検証 (Workflow-Based Agent Verification)

3. 主要な貢献

4. 実験結果と知見

5. 意義と結論

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

Vision2Web：AI 建築家のための「超・実践テスト」の紹介

1. 従来のテストは「お絵かき」だけだった

2. Vision2Web：3 つのレベルで試す「建築試験」

3. 採点方法：「AI 検査員」と「AI 審査員」のダブルチェック

4. 実験結果：AI は「部分」は得意だが「全体」は苦手

5. この研究の意義

まとめ

Vision2Web: エージェント検証を備えた視覚的 Web 開発のための階層型ベンチマーク

技術的サマリー（日本語）

1. 問題定義と背景

2. 手法とアーキテクチャ

2.1 階層的タスク設計

2.2 ワークフローベースのエージェント検証 (Workflow-Based Agent Verification)

3. 主要な貢献

4. 実験結果と知見

5. 意義と結論

関連論文