Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

本論文は、AI モデルによるゼロから完結する Web アプリケーション開発を評価する新たなベンチマーク「Vibe Code Bench」を提案し、最先端モデル 16 社によるテストで最高精度が 58.0% に留まったことを明らかにするとともに、自己テストの実施が性能予測に有効であることや評価者の選定が結果に大きく影響することを示しています。

Hung Tran, Langston Nashold, Rayan Krishnan, Antoine Bigeard, Alex Gu

公開日 2026-03-06
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

「Vibe Code Bench」の解説:AI は本当に「ゼロからアプリ」を作れるのか?

この論文は、AI(人工知能)がコードを書く能力を測る新しいテスト「Vibe Code Bench(バイブ・コード・ベンチ)」を紹介するものです。

これまでの AI のテストは「数学の問題を解く」や「特定のバグを直す」といった**「単一の課題」に焦点を当てていました。しかし、この新しいテストは、「アイデアを口頭で伝えたら、AI がゼロから完全な Web アプリを完成させられるか」**という、もっと現実的でハードな課題に挑戦しています。

以下に、難しい専門用語を使わず、身近な例え話を使って解説します。


1. 従来のテスト vs 新しいテスト:料理の例え

  • これまでのテスト(HumanEval や SWE-Bench など):
    「卵を割って、バターを溶かす」という**「特定の工程」**だけを評価していました。AI は「卵を割る」のは得意でも、「料理全体を完成させる」ことはまだ試されていませんでした。
  • 新しいテスト(Vibe Code Bench):
    「イタリアンレストランを開きたい。メニューはパスタとピザ、注文システムも欲しい」という**「お店全体の企画」**を AI に渡します。
    AI は、レシピ(コード)を書くだけでなく、
    • 食材の調達(データベースの設定)
    • 厨房の設備設置(サーバーの構築)
    • 注文ボタンの動作確認(ブラウザでのテスト)
    • お客さんが注文できるか試す(実際の動作確認)
      これらをすべて一人で完結させて、実際に動くお店(アプリ)を完成させる必要があります。

2. 実験の仕組み:AI 職人と自動検査員

このテストでは、以下の手順で AI を評価しました。

  1. 100 人の「注文主」:
    「個人用の習慣管理アプリ」「駐車場の予約アプリ」「企業の経費申請アプリ」など、現実的な 100 種類のアプリの注文(仕様書)を用意しました。
  2. 16 人の「AI 職人」:
    最新の AI モデル 16 社(OpenAI, Anthropic, Google など)に、それぞれ 50 時間以内の制限時間でアプリ作成を依頼しました。
  3. 自動検査員(ブラウザのロボット):
    AI が作ったアプリが本当に動くか、人間の代わりに**「目が見えて、クリックができるロボット」**がチェックします。
    • 「ログインボタンを押したら画面が変わるか?」
    • 「注文したらメールが届くか?」
    • 「支払いができるか?」
      これらを 1 つずつ確認し、アプリが「合格」するか「不合格」かを判定します。

3. 驚きの結果:まだ「完璧」には程遠い

結果は、AI の進化を示しつつも、課題も浮き彫りにしました。

  • ベストな成績でも 6 割強:
    最も優秀な AI(GPT-5.3-Codex)でも、100 個のアプリのうち62 個程度しか完全に成功させられませんでした。残りは、ログインができなかったり、支払いエラーが出たりして「お店がオープンできない」状態でした。
  • 「自分で試す」のが重要:
    成功した AI は、コードを書いている最中に**「自分でアプリを立ち上げて、ボタンを押してテストする」**という行動を頻繁に行っていました。
    • 例え: 料理人が味見をしながら調理する人ほど、美味しい料理を作れるのと同じです。
    • 逆に、ただひたすらコードを書き続けるだけで「味見(テスト)」をしない AI は、失敗することが多かったです。
  • コストと時間のトレードオフ:
    高い性能の AI は、より多くの時間とコストをかけていましたが、必ずしも「時間を使えば使うほど上手くなる」わけではなく、ある程度で頭打ちになる傾向もありました。

4. 評価者の「目」が結果を変える

面白い発見として、「誰が採点するか」で結果が変わることがわかりました。

  • 同じアプリを、異なる AI モデルや人間がチェックすると、評価がバラつくことがありました。
  • 特定の AI モデル(Claude Sonnet など)は、人間の評価者と非常に近い基準で採点できることがわかりました。これは、AI が AI を評価する際にも、「誰にチェックさせるか」が重要であることを示しています。

5. なぜこのテストが重要なのか?

このテストは、AI の能力を「コードを書くこと」から**「ソフトウェアを作る(ビジネスを立ち上げる)」**という視点で評価する第一歩です。

  • 現状: AI は「優秀なアシスタント」ですが、「一人前のエンジニア」として任せるにはまだ不安定です。
  • 未来: このテストを通じて、AI が「ゼロからアプリを作る」能力を高めれば、プログラミングが苦手な人でも、アイデアを口にするだけで自分のアプリやサービスを作れるようになるかもしれません。

まとめ

この論文は、**「AI はもうコードが書けるが、まだ『ゼロからアプリを完成させる』のは難しい」**と伝えています。

しかし、AI が**「自分で試して修正する(味見する)」**習慣を身につけることで、その能力は劇的に向上することがわかりました。今後は、AI が単なる「指示待ちの職人」ではなく、「自分で考えて試行錯誤する職人」に成長していくかが、次の大きな課題です。