Each language version is independently generated for its own context, not a direct translation.
1. 왜 이 논문이 필요할까요? (문제점)
지금까지의 AI 코딩 테스트는 마치 **"벽돌 하나를 잘못 쌓았을 때 고치는 능력"**만 평가하는 것과 비슷했습니다. 하지만 현실에서는 건물을 처음부터 설계하고, 벽을 쌓고, 전기 배선을 하고, 인테리어까지 다 해야 합니다.
기존 테스트들은 다음과 같은 한계가 있었습니다:
- 너무 단순함: 복잡한 건물을 통째로 짓는 능력을 보지 못함.
- 눈이 없는 테스트: AI 가 그림 (디자인) 을 보고 코드를 짜는 능력은 제대로 평가하지 못함.
- 검증 부족: AI 가 만든 건물이 실제로 작동하는지, 디자인과 같은지 확인하는 방법이 불완전함.
2. Vision2Web 은 무엇인가요? (해결책)
이 연구팀은 세 단계로 난이도가 올라가는 건축 시험을 만들었습니다.
- 1 단계 (정적 웹페이지): "이 그림 (디자인) 을 보고 똑같은 2D 도면을 그려줘."
- 비유: 건축 도면을 보고 벽과 창문 위치만 정확히 그리는 것.
- 2 단계 (인터랙티브 프론트엔드): "이 그림 여러 장을 보고, 버튼을 누르면 다른 페이지로 넘어가는 움직이는 집을 만들어줘."
- 비유: 문이 열리고, 계단이 올라가는 등 실제 사람이 들어와서 움직일 수 있는 집을 짓는 것.
- 3 단계 (풀스택 웹사이트): "이 요구사항서와 그림을 보고, 데이터도 저장되고 로그인도 되는 완전한 건물을 지어줘."
- 비유: 전기, 수도, 보안 시스템까지 다 포함된 완공된 건물을 짓는 것.
3. 어떻게 시험을 치나요? (검증 방법)
AI 가 만든 웹사이트를 평가할 때, 사람이 일일이 다 확인하면 시간이 너무 걸립니다. 그래서 연구팀은 **두 명의 'AI 감시관'**을 고용했습니다.
- GUI 에이전트 (실무 감시관):
- 이 감시관은 AI 가 만든 웹사이트에 직접 들어가서 "로그인해봐", "장바구니에 담으세요" 같은 행동을 실제로 해봅니다.
- 비유: 건물을 직접 걸어 다니며 "문이 잘 열리는지, 전등이 켜지는지" 확인하는 시공 감리원.
- VLM 판정관 (디자인 감시관):
- 이 감시관은 AI 가 만든 결과물과 원래 디자인 그림을 비교합니다. "색상이 같은가?", "배치가 같은가?"를 점수로 매깁니다.
- 비유: 원래 설계도와 실제 건물을 비교하며 "이 벽이 너무 기울었네"라고 지적하는 건축 디자이너.
이 두 감시관이 협력하여 AI 가 만든 웹사이트를 기능적 정확성과 디자인 충실도 두 가지로 꼼꼼하게 채점합니다.
4. 실험 결과는 어땠나요? (현실적인 결론)
최고 수준의 최신 AI 모델들 (Claude, GPT-5, Gemini 등) 을 이 시험에 풀어봤습니다. 결과는 아주 흥미롭고 놀라웠습니다.
- 난이도가 오르면 실력이 뚝 떨어집니다:
- 단순한 그림을 코드로 바꾸는 1 단계에서는 꽤 잘했습니다. (점수 50~60 점대)
- 하지만 건물을 통째로 짓는 3 단계 (풀스택) 로 가면 대부분의 AI 가 완전히 무너졌습니다. (점수 10~20 점대, 심지어 0 점인 모델도 있음)
- 작은 화면일수록 힘들어합니다:
- 컴퓨터 화면 (데스크톱) 에서는 잘 만들지만, 태블릿이나 스마트폰 화면으로 만들라고 하면 디자인이 깨지는 경우가 많았습니다.
- 가장 잘한 모델:
- 'Claude-Opus-4.5'가 가장 잘했지만, 그래도 완벽한 건물을 짓는 데는 여전히 한계가 있었습니다.
5. 핵심 교훈 (결론)
이 논문의 가장 중요한 메시지는 **"AI 가 작은 문제를 해결하는 능력과, 복잡한 시스템을 처음부터 끝까지 만드는 능력은 완전히 다르다"**는 것입니다.
지금의 AI 는 **재능 있는 '도배공'**은 될 수 있지만, 아직 **완벽한 '건축주'**가 되지는 못했습니다. 복잡한 설계도 (디자인) 를 보고, 여러 단계로 나누어 작업을 조율하며, 실수가 생기면 스스로 고쳐 나가는 능력은 여전히 인간이 필요하다는 뜻입니다.
한 줄 요약:
"AI 가 그림을 보고 코드를 짜는 능력은 꽤 좋지만, 복잡한 웹사이트를 처음부터 끝까지 혼자서 완벽하게 짓는 능력은 아직 '인간'이 훨씬 낫습니다. 이 연구는 그 격차를 정확히 측정하는 새로운 자를 만들었습니다."
연구 분야의 논문에 파묻히고 계신가요?
연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.