HATS: Hardness-Aware Trajectory Synthesis for GUI Agents

이 논문은 GUI 에이전트의 일반화 한계를 야기하는 의미적 모호성을 해결하기 위해, 난이도 기반 탐색과 정렬 기반 정제를 순환적으로 결합하여 고품질 궤적 데이터를 생성하는 'HATS' 프레임워크를 제안하고 이를 통해 기존 최첨단 모델보다 우수한 성능을 입증합니다.

Rui Shao, Ruize Gao, Bin Xie, Yixing Li, Kaiwen Zhou, Shuai Wang, Weili Guan, Gongwei Chen

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📱 HATS: GUI 에이전트를 위한 '난이도 인지' 학습법

이 논문은 컴퓨터나 스마트폰 화면을 보고 스스로 작업을 수행하는 AI(이를 'GUI 에이전트'라고 부릅니다) 가 더 똑똑해지도록 돕는 새로운 학습 방법인 HATS를 소개합니다.

기존의 AI 학습 방식은 마치 "초보 운전자가 매일 똑같은 직진 길만 반복해서 운전하는 것"과 비슷했습니다. 하지만 HATS 는 "어려운 길, 헷갈리는 길, 복잡한 교차로"를 의도적으로 찾아내어 연습하게 만드는 방식입니다.

이제 이 복잡한 기술 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: 왜 AI 는 간단한 일만 잘할까? (The Problem)

지금까지 AI 를 가르치려면 사람이 직접 "앱을 켜고, 버튼을 누르고, 글을 입력해"라고 시키거나, AI 가 무작위로 화면을 클릭하며 생기는 기록을 모았습니다.

  • 비유: 이는 마치 초보 운전자가 '주유소'와 '집' 사이만 오가는 길만 반복해서 운전하는 것과 같습니다.
  • 결과: AI 는 "주유소로 가자"는 말은 잘 듣지만, "비 오는 날에 우회전해서 주차하고, 창문을 닫고, 내비게이션을 켜는" 같은 복잡하고 상황에 따라 달라지는 (의미가 모호한) 작업은 전혀 못 합니다.
  • 핵심 문제: 기존 데이터에는 "의미가 헷갈리는 행동 (Semantic-Ambiguous Actions)" 이 거의 없었습니다. 예를 들어, 화면에 '+' 버튼이 두 개 있는데, 하나는 '새 폴더 만들기'고 다른 하나는 '연락처 추가'인 경우, AI 는 문맥을 보고 구분하는 법을 배우지 못합니다.

2. 해결책: HATS (Hardness-Aware Trajectory Synthesis)

HATS 는 "난이도 (Hardness)" 를 기준으로 학습 데이터를 만드는 시스템입니다. 여기서 '난이도'란 "AI 가 문맥을 이해하기 얼마나 어려운가"를 뜻합니다.

HATS 는 두 가지 핵심 기능을 가진 스마트 튜터 역할을 합니다.

① '난이도 탐험가' (Hardness-Driven Exploration)

  • 역할: AI 가 무작위로 돌아다니는 게 아니라, "이건 좀 헷갈리겠는데?"라고 생각되는 어려운 장소를 찾아갑니다.
  • 비유: 운전 연습을 할 때, 평범한 직진 도로를 100 번 반복하는 대신, 비 오는 날의 복잡한 사거리나 공사 구간을 의도적으로 찾아서 연습하는 것과 같습니다.
  • 효과: AI 가 자주 접하지 못했던, 하지만 실전에서 꼭 필요한 '어려운 상황'을 많이 경험하게 됩니다.

② '정밀 교정사' (Alignment-Guided Refinement)

  • 역할: AI 가 어려운 일을 시도했을 때, "그 instructions(명령어) 가 정말 제대로 된 걸까?"를 확인하고 고쳐줍니다.
  • 비유: 학생이 "비 오는 날 우회전해서 주차해"라는 명령을 듣고 실패했다면, 튜터가 "아, 너는 '비'라는 조건을 잊어버렸구나. 그리고 '주차'할 때 창문을 닫는 걸 빼먹었어. 다시 해보자" 라고 구체적으로 지적하고 수정해 줍니다.
  • 효과: AI 가 내린 명령과 실제 행동 사이의 오차를 줄여주어, AI 가 명령을 정확히 이해하도록 돕습니다.

3. HATS 의 마법: "닫힌 고리 (Closed Loop)"

이 두 기능이 서로 연결되어 선순환을 만듭니다.

  1. 탐험가가 어려운 길을 찾아옵니다.
  2. 교정사가 그 길을 어떻게 가야 하는지 정확히 가르쳐 줍니다.
  3. 만약 AI 가 그 길을 잘 못 갔다면, 그 실패 기록을 "이건 정말 어려운 문제야 (Hardness Reward)" 라는 신호로 바꿉니다.
  4. 그 신호를 받은 탐험가는 다음에는 그 어려운 길을 더 자주, 더 집중해서 찾아갑니다.

비유: 마치 스마트한 스포츠 코치가 선수의 약점을 분석해서, "너는 왼쪽 발로 슈팅할 때 힘이 약하구나"라고 지적하고, 그 부분을 집중적으로 훈련시킨 뒤, 다시 약한 부분을 찾아내는 과정을 반복하는 것과 같습니다.

4. 결과: 얼마나 좋아졌나요?

논문에서 실험한 결과, HATS 로 학습한 AI 는 기존 방식보다 훨씬 뛰어난 성능을 보였습니다.

  • 모바일 (AndroidWorld): 기존 최고 성능보다 약 2 배 더 많은 작업을 성공했습니다.
  • 웹 (WebArena): 기존 방식이 거의 실패했던 복잡한 웹 작업에서 약 3 배 이상의 성공률을 기록했습니다.

📝 요약

HATS는 AI 에게 "쉬운 일만 반복하게 하지 말고, 문맥이 헷갈리고 어려운 일을 찾아내서 그걸 해결하는 법을 반복해서 가르쳐라"는 원칙을 적용한 시스템입니다.

  • 기존: 쉬운 길만 반복해서 달리는 AI.
  • HATS: 헷갈리는 복잡한 길을 찾아내어, 실패하고 교정하며 성장하는 AI.

이 덕분에 AI 는 이제 단순한 클릭을 넘어, 실제 인간처럼 복잡한 디지털 환경에서도 유연하게 일할 수 있게 되었습니다.