Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

이 논문은 기존 벤치마크의 한계를 극복하고 AI 모델이 처음부터 끝까지 웹 애플리케이션을 개발하는 능력을 평가하기 위해 자율 브라우저 에이전트를 활용한 'Vibe Code Bench'를 제안하고, 16 개의 최첨단 모델을 평가하여 완전한 엔드 - 투 - 엔드 개발이 여전히 해결해야 할 과제임을 입증했습니다.

Hung Tran, Langston Nashold, Rayan Krishnan, Antoine Bigeard, Alex Gu

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚀 "바운스 코드 벤치": AI 가 혼자서 웹사이트를 만들어낼 수 있을까?

이 논문은 **"AI 가 이제 코딩을 넘어서, 실제로 작동하는 웹사이트를 처음부터 끝까지 혼자서 만들 수 있을까?"**라는 아주 중요한 질문을 던집니다.

기존의 AI 평가 방식은 "이 함수를 짜줘"나 "이 버그를 고쳐줘"처럼 작은 조각만 테스트했습니다. 하지만 이번 연구는 **"아이디어만 말하면, AI 가 혼자서 완전한 앱을 만들어서 인터넷에 올리는 것"**을 평가합니다.

이 논문의 핵심 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 새로운 시험지: "바운스 코드 벤치 (Vibe Code Bench)" 📝

기존의 시험지는 "수학 문제 100 개를 푸는 것"이었습니다. 하지만 이 연구팀은 **"한 편의 영화를 처음부터 끝까지 직접 찍어오는 것"**을 시험 문제로 냈습니다.

  • 시험 문제: "나에게 친구를 사귈 수 있는 SNS 앱 만들어줘"라고 AI 에게 말합니다.
  • 시험 내용: AI 는 혼자서 코드를 짜고, 서버를 세우고, 결제 시스템을 연결하고, 이메일을 보낼 수 있게 설정해야 합니다.
  • 채점 방식: AI 가 만든 앱을 스스로 브라우저에서 열어보고 "회원가입이 되나?", "게시글이 올라가나?", "결제 버튼이 작동하나?"를 직접 클릭하며 확인합니다. 마치 사람이 앱을 써보듯 말이죠.

100 개의 미션이 있었고, AI 가 만든 앱이 실제로 작동하는지 964 개의 구체적인 행동 (로그인, 글쓰기, 결제 등) 으로 테스트했습니다.

2. 시험 결과: 아직 완벽하지는 않아요 📉

최고의 AI 모델 16 개를 시험에 붙였는데, 결과는 어떨까요?

  • 1 등 (GPT-5.3-Codex): 100 점 만점에 약 62 점을 받았습니다.
  • 하위 모델: 10 점도 못 받는 경우도 많았습니다.

결론: AI 가 코드를 짜는 건 잘하지만, 혼자서 완벽하게 작동하는 앱을 만드는 건 아직 어렵습니다. 마치 "레고 조각을 잘 쌓는 장난감"은 있지만, "혼자서 성을 짓고 문도 열고 전기도 연결하는 건축가"는 아직 초보 단계라는 뜻입니다.

3. 성공의 비결: "스스로 점검하는 습관" 🧐

가장 흥미로운 발견은 성공한 AI 와 실패한 AI 의 행동 차이였습니다.

  • 성공한 AI: 코드를 짜다가 **"잠깐, 이거 작동해 보자"**라고 생각하며 브라우저에서 직접 테스트를 반복했습니다. (자신이 쓴 코드를 스스로 점검함)
  • 실패한 AI: 코드를 끝까지 짜기만 하고, 마지막에 "완료!"라고만 했습니다.

비유: 요리사 A 는 요리를 다 만들고 맛을 보며 "소금이 부족하네"라고 다시 간을 맞춥니다. 요리사 B 는 요리를 다 만들고 맛도 보지 않고 바로 손님에게 줍니다. 성공한 AI 는 요리사 A 처럼 스스로 맛을 보는 (테스트하는) 습관이 있었습니다.

4. 채점관의 중요성: 누가 채점하느냐에 따라 점수가 달라져요 ⚖️

AI 가 만든 앱을 채점할 때, 누가 채점하느냐가 매우 중요하다는 사실도 발견했습니다.

  • 어떤 AI 채점관은 "이건 완벽해!"라고 점수를 주지만, 다른 AI 채점관은 "여기 문제가 있어"라고 점수를 깎습니다.
  • 심지어 사람이 직접 채점했을 때와 AI 가 채점했을 때의 의견이 완전히 다를 수도 있습니다.

비유: 같은 그림을 두고 미술 평론가 A 는 "명작"이라고 하고, 평론가 B 는 "그림이 삐뚤어져 있어"라고 할 수 있습니다. 따라서 누가 채점하느냐를 명확히 해야 AI 의 실력을 정확히 알 수 있습니다.

5. 왜 이 연구가 중요할까요? 🌟

이 연구는 AI 의 미래를 보여줍니다.

  • 과거: "AI 는 코딩 도우미"였습니다. (사람이 시키면 조금만 도와줌)
  • 미래: "AI 는 소프트웨어 개발자"가 될 수 있습니다. (사람이 "이런 앱 만들어줘"라고 말만 하면, AI 가 혼자서 다 만들어줌)

이제 우리는 **"AI 가 코드를 짜는 속도"**가 아니라, **"AI 가 실제로 쓸모 있는 제품을 만들어내는 능력"**을 평가해야 할 때입니다. 이 벤치마크는 그 기준을 제시한 첫걸음입니다.


📝 한 줄 요약

"AI 가 혼자서 웹사이트를 만들어내는 능력을 시험한 결과, 최고의 AI 가 60% 정도만 성공했고, 성공한 AI 는 스스로 테스트를 반복하는 습관이 있었다는 것을 발견했다."

이 연구는 AI 가 이제 '도구'를 넘어 '파트너'가 되기 위해 넘어야 할 마지막 산을 보여주고 있습니다.