HiconAgent: History Context-aware Policy Optimization for GUI Agents

이 논문은 불필요한 정보로 인한 계산 오버헤드를 줄이면서도 역사적 맥락을 효과적으로 활용하기 위해 동적 맥락 샘플링과 앵커 기반 역사 압축을 결합한 'HiconAgent'를 제안하고, 이를 통해 더 작은 모델로도 기존 최첨단 모델보다 뛰어난 성능과 효율성을 달성함을 보여줍니다.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📱 HiconAgent: "과거의 모든 것을 기억하지 않아도 되는" 똑똑한 앱 조종사

이 논문은 GUI 에이전트(스마트폰이나 컴퓨터 화면을 보고 마우스를 클릭하거나 타이핑하는 AI)가 어떻게 더 똑똑하고 빠르게 일할 수 있는지에 대한 새로운 방법을 소개합니다.

이 기술을 HiconAgent이라고 부르는데, 핵심 아이디어는 **"과거의 모든 것을 다 기억하려고 애쓰지 말고, 필요한 것만 잘 골라 쓰자"**는 것입니다.


🧩 1. 문제점: "과거의 모든 것을 기억하면 머리가 아파요!"

기존의 AI 에이전트들은 작업을 할 때, **과거에 본 모든 화면 **(스크린샷)을 다 기억하려고 했습니다.

  • 비유: Imagine you are trying to solve a puzzle.
    • 기존 방식: 퍼즐을 풀 때, 어제, 일주일 전, 한 달 전에 본 모든 퍼즐 조각들을 책상 위에 다 펼쳐놓고 하나하나 비교합니다.
    • 결과: 책상이 너무 복잡해지고, 중요한 조각을 찾는 데 시간이 너무 오래 걸립니다. (계산 비용이 너무 많이 듭니다.)
    • 단점: 오히려 쓸데없는 정보 때문에 혼란스러워져서 실수를 하기도 합니다.

💡 2. 해결책: HiconAgent의 두 가지 비밀 무기

이 연구팀은 AI에게 두 가지 새로운 훈련 방법을 가르쳤습니다.

🔍 무기 1: "상황에 맞는 기억력 조절" (Dynamic Context Sampling)

AI에게 "항상 과거 3개 화면만 봐"라고 고정하지 않고, 상황에 따라 기억할 과거의 양을 유동적으로 바꿉니다.

  • 비유: 요리할 때, 간단한 스프라면 지난 10 분의 기억만 있으면 되지만, 복잡한 케이크를 만들 때는 지난 1 시간의 레시피가 필요할 수 있습니다.
  • 방법: AI는 훈련 과정에서 "오늘은 과거 1 개만 기억해", "내일은 과거 3 개까지 기억해"처럼 랜덤하게 기억할 양을 바꿔가며 연습합니다.
  • 효과: AI는 어떤 상황에서는 짧은 기억이, 어떤 상황에서는 긴 기억이 필요한지 스스로 배우게 되어, 필요할 때만 필요한 정보를 꺼내 쓸 수 있게 됩니다.

🗑️ 무기 2: "핵심만 남기고 정리하기" (Anchor-guided History Compression)

과거의 정보를 저장할 때, 중요한 '행동 기록(누가 무엇을 클릭했는지)은 남기고, 중요하지 않은 '화면 이미지(과거 스크린샷)는 과감히 버립니다.

  • 비유: 여행 일기를 쓸 때, **어디를 갔는지 **(행동)는 꼭 적어두지만, **그때 찍은 100 장의 사진 **(화면)은 다 지우고 요약본만 남깁니다.
  • 핵심 발견: 연구팀은 AI가 과거 정보를 이해할 때, **이미지 자체보다는 '무엇을 했는지 **(행동)가 더 중요하다는 것을 발견했습니다.
  • 방법:
    1. **선생님 **(완전 기억)과 **학생 **(압축 기억) 두 명을 둡니다.
    2. 선생님은 과거의 모든 화면과 행동을 다 보고 답을 냅니다.
    3. 학생은 과거의 '행동'만 보고 (이미지는 제외), 선생님의 답을 따라가며 답을 냅니다.
    4. 이렇게 하면 계산 속도는 2.5 배 빨라지고, 메모리 사용량은 60% 줄면서도 정확도는 거의 떨어지지 않습니다.

🚀 3. 실제 성과: 작은 몸집, 큰 실력!

이 방법을 적용한 HiconAgent-3B(모델 크기가 작음)는 기존에 유명한 GUI-R1-7B(모델 크기가 2 배 이상 큼)보다 훨씬 잘합니다.

  • 성능: 복잡한 작업 (비행기 예약, 앱 찾기 등) 에서 정답률이 11% 이상 높아졌습니다.
  • 속도: 같은 일을 하는 데 걸리는 시간이 2.5 배 빨라졌습니다.
  • 효율: 컴퓨터가 계산하는 양 (FLOPs) 이 60%나 줄었습니다.

🌟 4. 결론: "적게 기억하고, 더 똑똑하게"

이 논문은 AI 에게 "과거의 모든 것을 다 기억하는 것"이 정답이 아니라고 말합니다. 대신 **"상황에 따라 기억할 양을 조절하고, 핵심인 '행동'만 남기고 나머지는 정리하는 것"**이 훨씬 효율적이고 똑똑한 방법임을 증명했습니다.

한 줄 요약:

"HiconAgent는 과거의 모든 사진을 다 보는 대신, '무엇을 했는지'라는 핵심 메모만 남기고 상황에 따라 필요한 만큼만 기억해서, 더 빠르고 정확하게 앱을 조종하는 새로운 AI 입니다."