Vision2Web: A Hierarchical Benchmark for Visual Website Development with… — 쉬운 설명

Each language version is independently generated for its own context, not a direct translation.

1. 왜 이 논문이 필요할까요? (문제점)

지금까지의 AI 코딩 테스트는 마치 **"벽돌 하나를 잘못 쌓았을 때 고치는 능력"**만 평가하는 것과 비슷했습니다. 하지만 현실에서는 건물을 처음부터 설계하고, 벽을 쌓고, 전기 배선을 하고, 인테리어까지 다 해야 합니다.

기존 테스트들은 다음과 같은 한계가 있었습니다:

너무 단순함: 복잡한 건물을 통째로 짓는 능력을 보지 못함.
눈이 없는 테스트: AI 가 그림 (디자인) 을 보고 코드를 짜는 능력은 제대로 평가하지 못함.
검증 부족: AI 가 만든 건물이 실제로 작동하는지, 디자인과 같은지 확인하는 방법이 불완전함.

2. Vision2Web 은 무엇인가요? (해결책)

이 연구팀은 세 단계로 난이도가 올라가는 건축 시험을 만들었습니다.

1 단계 (정적 웹페이지): "이 그림 (디자인) 을 보고 똑같은 2D 도면을 그려줘."
- 비유: 건축 도면을 보고 벽과 창문 위치만 정확히 그리는 것.
2 단계 (인터랙티브 프론트엔드): "이 그림 여러 장을 보고, 버튼을 누르면 다른 페이지로 넘어가는 움직이는 집을 만들어줘."
- 비유: 문이 열리고, 계단이 올라가는 등 실제 사람이 들어와서 움직일 수 있는 집을 짓는 것.
3 단계 (풀스택 웹사이트): "이 요구사항서와 그림을 보고, 데이터도 저장되고 로그인도 되는 완전한 건물을 지어줘."
- 비유: 전기, 수도, 보안 시스템까지 다 포함된 완공된 건물을 짓는 것.

3. 어떻게 시험을 치나요? (검증 방법)

AI 가 만든 웹사이트를 평가할 때, 사람이 일일이 다 확인하면 시간이 너무 걸립니다. 그래서 연구팀은 **두 명의 'AI 감시관'**을 고용했습니다.

GUI 에이전트 (실무 감시관):
- 이 감시관은 AI 가 만든 웹사이트에 직접 들어가서 "로그인해봐", "장바구니에 담으세요" 같은 행동을 실제로 해봅니다.
- 비유: 건물을 직접 걸어 다니며 "문이 잘 열리는지, 전등이 켜지는지" 확인하는 시공 감리원.
VLM 판정관 (디자인 감시관):
- 이 감시관은 AI 가 만든 결과물과 원래 디자인 그림을 비교합니다. "색상이 같은가?", "배치가 같은가?"를 점수로 매깁니다.
- 비유: 원래 설계도와 실제 건물을 비교하며 "이 벽이 너무 기울었네"라고 지적하는 건축 디자이너.

이 두 감시관이 협력하여 AI 가 만든 웹사이트를 기능적 정확성과 디자인 충실도 두 가지로 꼼꼼하게 채점합니다.

4. 실험 결과는 어땠나요? (현실적인 결론)

최고 수준의 최신 AI 모델들 (Claude, GPT-5, Gemini 등) 을 이 시험에 풀어봤습니다. 결과는 아주 흥미롭고 놀라웠습니다.

난이도가 오르면 실력이 뚝 떨어집니다:
- 단순한 그림을 코드로 바꾸는 1 단계에서는 꽤 잘했습니다. (점수 50~60 점대)
- 하지만 건물을 통째로 짓는 3 단계 (풀스택) 로 가면 대부분의 AI 가 완전히 무너졌습니다. (점수 10~20 점대, 심지어 0 점인 모델도 있음)
작은 화면일수록 힘들어합니다:
- 컴퓨터 화면 (데스크톱) 에서는 잘 만들지만, 태블릿이나 스마트폰 화면으로 만들라고 하면 디자인이 깨지는 경우가 많았습니다.
가장 잘한 모델:
- 'Claude-Opus-4.5'가 가장 잘했지만, 그래도 완벽한 건물을 짓는 데는 여전히 한계가 있었습니다.

5. 핵심 교훈 (결론)

이 논문의 가장 중요한 메시지는 **"AI 가 작은 문제를 해결하는 능력과, 복잡한 시스템을 처음부터 끝까지 만드는 능력은 완전히 다르다"**는 것입니다.

지금의 AI 는 **재능 있는 '도배공'**은 될 수 있지만, 아직 **완벽한 '건축주'**가 되지는 못했습니다. 복잡한 설계도 (디자인) 를 보고, 여러 단계로 나누어 작업을 조율하며, 실수가 생기면 스스로 고쳐 나가는 능력은 여전히 인간이 필요하다는 뜻입니다.

한 줄 요약:

"AI 가 그림을 보고 코드를 짜는 능력은 꽤 좋지만, 복잡한 웹사이트를 처음부터 끝까지 혼자서 완벽하게 짓는 능력은 아직 '인간'이 훨씬 낫습니다. 이 연구는 그 격차를 정확히 측정하는 새로운 자를 만들었습니다."

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

1. 왜 이 논문이 필요할까요? (문제점)

2. Vision2Web 은 무엇인가요? (해결책)

3. 어떻게 시험을 치나요? (검증 방법)

4. 실험 결과는 어땠나요? (현실적인 결론)

5. 핵심 교훈 (결론)

1. 문제 제기 (Problem Statement)

2. 방법론 (Methodology)

2.1. 계층적 작업 설계 (Hierarchical Task Design)

2.2. 데이터셋 구축 (Dataset Construction)

2.3. 워크플로우 기반 에이전트 검증 (Workflow-Based Agent Verification)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

1. 왜 이 논문이 필요할까요? (문제점)

2. Vision2Web 은 무엇인가요? (해결책)

3. 어떻게 시험을 치나요? (검증 방법)

4. 실험 결과는 어땠나요? (현실적인 결론)

5. 핵심 교훈 (결론)

1. 문제 제기 (Problem Statement)

2. 방법론 (Methodology)

2.1. 계층적 작업 설계 (Hierarchical Task Design)

2.2. 데이터셋 구축 (Dataset Construction)

2.3. 워크플로우 기반 에이전트 검증 (Workflow-Based Agent Verification)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문