CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

이 논문은 GUI 작업의 난이도 차이를 고려한 커리큘럼 학습과 세분화된 보상 함수를 도입한 CRAFT-GUI 프레임워크를 제안하여, 기존 최첨단 방법들보다 안드로이드 제어 및 내부 온라인 벤치마크에서 각각 5.6% 와 10.3% 의 성능 향상을 달성했음을 보여줍니다.

Songqin Nong, Xiaoxuan Tang, Jingxuan Xu, Sheng Zhou, Jianfeng Chen, Tao Jiang, Wenhao Xu

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎮 1. 문제 상황: "어린아이를 대학 강의로 가르치려다"

기존의 AI 비서들은 모든 일을 똑같은 난이도로 가르쳤습니다.

  • 비유: 마치 초등학교 1 학년 아이에게 갑자기 미적분학을 가르치려다가, 동시에 대학원 논문도 같이 가르치려다는 것과 같습니다.
  • 결과: 아이는 (AI 는) 당황해서 제대로 배우지 못합니다. 쉬운 일은 금방 잊어버리고, 어려운 일은 도저히 따라가지 못해 학습이 불안정해집니다.

또한, AI 가 실수했을 때 "틀렸다"라고만 알려주거나, "정답에 가까웠다"는 식의 너무 뻔뻔한 (Coarse) 점수만 매겨주었습니다.

  • 비유: 요리 실습에서 소금 한 티스푼을 덜 넣었는데, 선생님 (AI) 이 **"0 점, 실패!"**라고만 외치고 넘어가는 격입니다. "소금이 부족했어"라는 구체적인 피드백이 없으니, 다음엔 어떻게 고쳐야 할지 모릅니다.

🚀 2. 해결책: CRAFT-GUI (커리큘럼 학습 + 정교한 보상)

이 논문은 두 가지 핵심 아이디어로 위 문제를 해결했습니다.

① 단계별 학습 (커리큘럼 학습): "난이도 조절이 핵심!"

AI 를 가르칠 때, 쉬운 일부터 어려운 일까지 순서대로 가르칩니다.

  • 1 단계 (초급): "앱 켜기", "뒤로 가기" 같은 단순한 클릭 3 회 이내 작업.
  • 2 단계 (중급): "음식 주문하기"처럼 4~8 단계로 이어지는 일반적인 작업.
  • 3 단계 (고급): "메뉴판에서 특정 음식을 찾아서 장바구니에 담고, 결제 방법 변경하기"처럼 10 단계 이상이거나, 화면 내용을 이해하고 추론해야 하는 복잡한 작업.

비유: 수영을 배울 때, 먼저 물장구 치기부터 시작해서, 발차기, 손동작, 그리고 마지막으로 혼합 영법을 배우는 것과 같습니다. 이렇게 하면 AI 는 기초가 탄탄해지고, 어려운 과제도 차근차근 해낼 수 있게 됩니다.

② 정교한 보상 시스템: "구체적인 칭찬과 조언"

AI 가 작업을 할 때, 단순히 "성공/실패"만 보는 게 아니라, 어디가 잘됐고 어디가 부족했는지 세세하게 점수를 매깁니다.

  • 규칙 기반 점수: "클릭 버튼을 눌렀니?", "좌표가 맞니?" 같은 명확한 규칙으로 점수.
  • 모델이 판단하는 점수: "이 문장이 자연스러운가?", "의도한 바를 잘 이해했는가?"를 다른 AI 가 심사하여 점수.

비유: 요리 실습에서 선생님이 **"소금 양은 적당했지만, 후추는 너무 많이 넣었어. 그리고 불 조절은 완벽했어!"**라고 구체적인 코멘트를 해주는 것과 같습니다. 이렇게 하면 AI 는 다음에 정확히 무엇을 고쳐야 할지 알게 됩니다.

📊 3. 결과: "기존 비서들을 압도하다"

이 방법을 적용한 CRAFT-GUI 는 기존 최고의 AI 들보다 훨씬 뛰어난 성과를 냈습니다.

  • 공개 데이터 (AndroidWorld): 기존 최고 성능보다 7.1% 더 잘했습니다.
  • 사내 데이터 (실제 앱 사용): 기존 최고 성능보다 10.3% 더 잘했습니다.

특히, **단순한 조작 (클릭)**뿐만 아니라 화면 내용을 이해하는 능력까지 함께 훈련시켰기 때문에, 훨씬 똑똑하고 유연하게 작동합니다.

💡 4. 요약: 왜 이것이 중요한가?

이 연구는 AI 비서가 **"무작정 많은 일을 시키는 것"**이 아니라, **"난이도에 맞춰 차근차근 가르치고, 구체적인 피드백을 주는 것"**이 얼마나 중요한지 보여줍니다.

  • 기존 방식: "다 해봐! (그리고 틀리면 0 점)"
  • CRAFT-GUI 방식: "먼저 쉬운 거부터 해봐. 잘했네! 이제 조금 더 복잡한 거 해보자. 여기는 조금 다듬으면 완벽해!"

이처럼 **교육적인 접근 (커리큘럼)**과 **정밀한 피드백 (보상)**을 결합한 CRAFT-GUI 는 앞으로 우리가 스마트폰이나 컴퓨터를 사용할 때, 인간처럼 생각하고 행동하는 진정한 '스마트 비서'를 만드는 중요한 발걸음이 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →