Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"웹사이트를 보고 이해하는 AI(멀티모달 대형 언어 모델, MLLM) 가 실제로 얼마나 똑똑하고, 튼튼하며, 안전한지"**를 시험하는 새로운 시험지를 만든 연구입니다.

기존의 AI 연구들은 주로 "그림을 잘 그릴 수 있나?"나 "코드를 잘 짜나?"에 집중했는데, 이 연구는 **"실제 복잡한 웹사이트를 보고, 실수하지 않고, 위험한 버튼을 피할 수 있는가?"**라는 더 중요한 질문을 던집니다.

이 논문의 핵심 내용을 일상적인 비유로 설명해 드릴게요.

1. 왜 이 연구가 필요할까요? (문제 상황)

지금까지 AI 는 웹사이트를 볼 때 눈만 믿고 있었습니다. 마치 "빨간색 버튼이 있으니 클릭해야지"라고 생각하는 것처럼요. 하지만 현실은 훨씬 복잡합니다.

레이아웃이 바뀌면: 버튼이 조금만 옮겨져도 AI 는 "아, 이거 아니야"라고 오해할 수 있습니다.
위험한 버튼: "계정 삭제" 같은 치명적인 버튼을 AI 가 실수로 클릭하면 큰일이 납니다.
추론 능력: "이 버튼은 저 입력창 왼쪽에 있으니까, 입력을 먼저 해야 해"라는 논리적 흐름을 이해하지 못합니다.

기존 시험지는 이런 **실전 능력 (추론, 튼튼함, 안전성)**을 제대로 평가하지 못했습니다. 그래서 연구팀은 새로운 시험지인 **'WebRRSBench'**를 만들었습니다.

2. WebRRSBench 란 무엇인가요? (새로운 시험지)

이 시험지는 729 개의 실제 웹사이트와 3,799 개의 질문으로 구성되어 있습니다. 마치 AI 에게 운전 면허 시험을 치르듯 8 가지 과목을 봅니다.

🧠 과목 1: 추론 (Reasoning) - "눈치 보기"

상대적 위치 추론: "A 버튼이 B 입력창의 오른쪽 위에 있네?"라고 위치 관계를 정확히 파악하는 능력입니다.
폼 채우기: "사용자가 이 폼을 작성하려는 목적이 뭐지?"를 유추해서 빈칸을 채우는 능력입니다.
UI 그룹화: "이 버튼은 '메인 콘텐츠' 영역에 속한 거야, 아니면 '사이드바'에 속한 거야?"를 구분하는 능력입니다.
힌트 텍스트 예측: "사용자가 이 입력란에 무엇을 쓸지 예상해서 힌트 문구를 만들어주는 능력"입니다.

🛡️ 과목 2: 튼튼함 (Robustness) - "방어력 테스트"

AI 가 웹사이트를 볼 때, 화면이 조금씩 변해도 같은 결론을 내릴 수 있는지 봅니다.

색상 변화: 버튼을 회색으로 바꾸거나, 전체 화면을 어둡게 만들어도 "여기가 로그인 버튼이야"라고 알아볼까요? (눈이 안 좋은 사람도 볼 수 있게 테스트하는 셈입니다.)
텍스트 변화: 버튼 글자에 "!"를 붙이거나, "o"를 "0"으로 바꿔도 기능을 이해할까요?
레이아웃 변화: 버튼 위치를 살짝 옮기거나 요소를 지워도 "이 페이지의 주 목적은 쇼핑이야"라고 기억할까요?

⚠️ 과목 3: 안전성 (Safety) - "위험 감지"

치명적 버튼 탐지: "계정 삭제", "환불 불가 결제"처럼 한 번 누르면 돌이킬 수 없는 위험한 버튼을 AI 가 스스로 찾아내서 "이건 누르면 안 돼!"라고 경고할 수 있는지 봅니다.

3. 실험 결과: AI 들은 어떻게 했을까요? (결과 분석)

연구팀은 11 개의 최신 AI 모델 (구글, 오픈소스 등) 을 이 시험지에 풀어보게 했습니다. 결과는 아직 갈 길이 멀다는 것이었습니다.

상위권 vs 하위권: 비싼 유료 모델 (GPT-5 등) 은 무료 오픈소스 모델보다 훨씬 잘했습니다. 특히 안전성 부분에서 유료 모델이 압도적이었습니다.
약점 발견:
1. 색상에 너무 의존함: 빨간색 버튼만 보고 "여기가 중요해!"라고 생각하다가, 색이 바뀌면 엉뚱한 곳을 클릭했습니다.
2. 작은 실수에 약함: 글자 하나를 바꿔도 기능을 완전히 잘못 이해했습니다.
3. 전체 그림을 못 봄: 한 부분만 보고 전체 페이지의 목적을 잘못 추론했습니다.
기대할 만한 점: 하지만 **LoRA(경량화 미세조정)**라는 기술을 통해 AI 를 조금만 가르쳐주면, 위치 추론 능력은 16% 에서 41% 로 2.5 배 이상 크게 향상되었습니다. 즉, AI 는 충분히 가르칠 수 있다는 뜻입니다.

4. 결론: 이 연구가 우리에게 주는 메시지

이 논문은 **"AI 가 웹사이트를 다룰 때는 단순히 '눈'만 좋으면 안 된다"**고 말합니다.

**논리적 사고 (추론)**가 필요하고,
화면이 조금 변해도 흔들리지 않는 (튼튼한) 마음이 필요하며,
위험한 일을 미리 감지하는 (안전한) 본능이 필요합니다.

이 연구는 앞으로 더 똑똑하고 안전한 AI 에이전트 (웹사이트를 대신 해주는 로봇) 를 만들기 위한 필수적인 기준점을 제시했습니다. 마치 운전 면허 시험에서 "차만 잘 몰면 되는 게 아니라, 비상 상황 대처와 안전 규칙 준수까지 봐야 한다"는 것을 깨닫게 해준 셈입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

최근 멀티모달 대규모 언어 모델 (MLLM) 은 웹 기반 시스템, 특히 GUI 에이전트 및 프론트엔드 자동화의 핵심 추론 엔진으로 활용되고 있습니다. 그러나 기존 웹 이해 벤치마크는 다음과 같은 한계를 가지고 있어 실제 배포 환경에서의 신뢰성을 평가하기에 부족합니다.

불충분한 추론 평가: 기존 벤치마크는 시각적 인식 (OCR, 요소 위치 지정) 이나 UI 코드 생성에 집중하여, UI 요소 간의 공간적 관계 추론 (Spatial Reasoning) 및 요소의 의미적 역할 이해를 평가하지 못합니다.
견고성 (Robustness) 및 안전성 (Safety) 부재: 레이아웃 변경, 색상 변화, 텍스트 교란 등 실제 웹 환경에서 발생할 수 있는 **적대적 교란 (Adversarial Perturbations)**에 대한 모델의 강건성을 평가하지 않습니다. 또한, 계정 삭제나 결제와 같은 **안전성 위험 요소 (Safety-critical elements)**를 식별하고 회피하는 능력에 대한 평가가 결여되어 있습니다.
확장성 부족: 대부분의 벤치마크가 정적 (Static) 으로 설계되어 새로운 테스트 케이스나 평가 차원을 프로그래밍 방식으로 확장하기 어렵습니다.

2. 방법론 (Methodology)

이 논문은 웹 GUI 에이전트의 핵심 능력을 종합적으로 평가하기 위해 WebRRSBench라는 새로운 벤치마크를 제안합니다.

A. 데이터셋 구성

규모: 729 개의 실제 웹사이트 및 디자인 커뮤니티 (V0 Community 등) 에서 수집된 3,799 개의 질문 - 답변 (QA) 쌍으로 구성됨.
데이터 소스: Mind2Web, WebMMU, WebSRC 등 기존 데이터셋과 인기 웹사이트를 필터링하여 추론, 견고성, 안전성 차원에 특화된 데이터를 선별.
품질 관리: 4 명의 박사 과정 학생이 참여하여 정답 (Ground Truth) 을 생성하고, 자동화 체크와 인간 검증을 결합한 다단계 품질 관리 프로세스를 적용.

B. 평가 태스크 (8 가지)

WebRRSBench 는 3 가지 핵심 차원 (추론, 견고성, 안전성) 을 8 가지 태스크로 세분화하여 평가합니다.

추론 (Reasoning) - 4 가지 태스크:
- 위치 관계 추론 (Position Relationship Reasoning): 두 UI 요소 간의 상대적 위치 (상/하/좌/우 등 10 가지 관계) 를 추론.
- UI 그룹화 (UI Grouping): 요소가 속한 기능적 영역 (상단 바, 사이드바, 메인 콘텐츠 등) 을 분류.
- 폼 채우기 (Form Filling): 사용자의 목적을 추론하여 폼 필드를 채우는 작업.
- 힌트 텍스트 예측 (Hint Text Prediction): 폼에 누락된 힌트 텍스트를 문맥을 통해 생성.
견고성 (Robustness) - 3 가지 교란 방식:
- 색상 교란 (Color Robustness): WCAG 기준을 기반으로 전역 대비도 감소 (Global low-contrast), 일부 버튼 색상 변경 (Partial), 전체 버튼 색상 변경 (Full) 을 적용하여 모델이 색상 힌트가 아닌 구조/텍스트에 기반해 핵심 버튼 (CTA) 을 식별하는지 평가.
- 텍스트 교란 (Text Robustness): 버튼 라벨에 공백, 특수문자, 유사 문자 (예: 'o' $\to$ '0') 를 삽입하여 기능 이해도가 유지되는지 평가.
- 레이아웃 교란 (Layout Robustness): DOM 구조를 변경 (삭제, 삽입, 이동) 하되 핵심 기능은 유지하여 페이지의 전체 목적을 요약하는 능력의 안정성을 평가.
안전성 (Safety) - 1 가지 태스크:
- 안전성 위험 요소 탐지 (Safety Critical Detection): 계정 삭제, 데이터 영구 제거 등 되돌리기 어려운 (Irreversible) 위험한 버튼을 식별하는 능력 평가.

C. 평가 프로토콜

페어링 평가 (Paired Evaluation): 동일한 지시문에 대해 원본 웹페이지와 교란된 웹페이지를 모델에 입력하여 출력의 일관성을 비교.
지표: 정답률 (Accuracy), 임베딩 기반 유사도, TF-IDF 코사인 유사도 등을 태스크 특성에 맞게 적용.
자기 대조 분석 (Self-contrast Analysis): 교란 전후의 정답률이 동일하더라도 정답을 맞춘 사례가 달라지는지 (Hidden Instability) 분석.

3. 주요 기여 (Key Contributions)

종합 평가 프레임워크: 추론, 견고성, 안전성이라는 3 가지 차원을 통합하여 웹 GUI 에이전트 능력을 평가하는 최초의 벤치마크 (WebRRSBench) 를 제안.
새로운 추론 태스크: 공간적 관계 추론, 폼 채우기, UI 그룹화 등 기존에 충분히 평가되지 않았던 GUI 에이전트 필수 능력을 측정하는 4 가지 새로운 태스크 도입.
체계적인 견고성 및 안전성 평가: 레이아웃 재배치, 색상 변화, 텍스트 변형 등 3 가지 새로운 교란 방법과 안전성 위험 탐지 태스크를 통해 적대적 환경과 보안 리스크에 대한 모델 능력을 평가.
확장성 있는 설계: 자동화된 샘플 생성 파이프라인을 통해 위치 관계 및 적대적 샘플을 확장 가능하게 설계.

4. 실험 결과 (Results)

11 개의 오픈소스 및 상용 MLLM(GPT-5, Claude-4, Gemini 2.5-Pro, Qwen2.5-VL 등) 을 평가한 결과는 다음과 같습니다.

전체 성능: 상용 모델 (Closed-source) 이 오픈소스 모델보다 전반적으로 우수한 성능을 보였으며, 특히 안전성 탐지 태스크에서 격차가 두드러짐.
추론의 한계: 위치 관계 추론과 폼 채우기 태스크에서 모든 모델의 성능이 낮음. 이는 복잡한 레이아웃에서의 공간적 추론이 여전히 주요 병목 현상임을 시사.
견고성 취약점:
- 색상 의존성: 모델이 색상 대비나 시각적 강조에 과도하게 의존하여, 색상 교란 시 핵심 버튼 식별에 실패.
- 텍스트 취약성: 문자 수준의 작은 편집 (OCR 오류 유발) 만으로도 기능 해석이 크게 왜곡됨.
- 국소적 주의 편향: 레이아웃 변경 시 전체 구조를 무시하고 특정 영역에만 과도하게 주의를 기울여 잘못된 요약 생성.
파인튜닝 효과 (LoRA):
- 위치 관계 추론 정확도가 16.3% $\to$ 41.3% (약 2.5 배 증가) 로 크게 향상.
- UI 그룹화 정확도 67.6% $\to$ 96.9% 로 개선.
- 색상 견고성 평균 정확도 73.1% $\to$ 80.1% 상승.
- 이는 표적 감독 학습 (Targeted Supervision) 이 웹 이해 능력을 효과적으로 향상시킬 수 있음을 증명.

5. 의의 및 결론 (Significance)

현실적 배포 준비도 평가: 기존 벤치마크가 간과했던 '안전성'과 '적대적 견고성'을 평가함으로써, 실제 웹 환경에서 MLLM 기반 에이전트를 배포할 때의 리스크를 식별할 수 있는 기준을 마련했습니다.
향후 연구 방향 제시: 모델이 시각적 특징 (색상) 에만 의존하지 않고 구조적/의미적 정보를 활용하도록 유도하는 파인튜닝 전략의 중요성을 강조했습니다.
표준화: 웹 이해 및 지능형 웹 자동화 분야에서 모델의 추론 능력, 견고성, 안전성을 체계적으로 비교 분석할 수 있는 새로운 표준을 제시했습니다.

이 연구는 MLLM 이 단순한 웹 페이지 인식을 넘어, 복잡한 웹 환경에서 안전하고 견고하게 작동하는 에이전트로 발전하기 위해 해결해야 할 과제를 명확히 제시했다는 점에서 의의가 큽니다.