Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

이 논문은 고해상도 GUI 에이전트의 비효율성을 해결하기 위해 시간적 적응 해상도 (TAR) 와 계층적 구조 인식 가지치기 (SSP) 를 결합하여 학습 없이도 성능 저하 없이 연산량과 지연 시간을 획기적으로 줄이는 'GUIPruner' 프레임워크를 제안합니다.

Zhou Xu, Bowen Zhou, Qi Wang, Shuwen Feng, Jingyu Xiao

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 배경: 지쳐버린 AI 비서

상상해 보세요. AI 비서가 사용자의 스마트폰이나 컴퓨터 화면을 보고 "이거 클릭해 줘"라는 명령을 내리는 상황을요.

  • 문제점: 화면은 고해상도라 픽셀이 엄청 많고, 사용자는 과거에 어떤 화면을 봤는지 (이력) 기억해야 합니다.
  • 결과: AI 는 과거의 모든 화면을 고화질로, 현재 화면의 모든 부분을 다 분석하려다 보니 머리 (컴퓨터 자원) 가 터질 듯이 무거워지고, 속도가 느려집니다. 마치 100 권의 책을 한 번에 다 읽으려다 눈이 피로해져서 중요한 줄을 놓치는 것과 비슷합니다.

🔍 연구팀이 발견한 두 가지 '착각'

연구팀은 기존 AI 들이 효율성을 위해 정보를 줄일 때, 두 가지 큰 실수를 하고 있다고 발견했습니다.

  1. 시간에 따른 기억력 착각 (Temporal Mismatch)
    • 상황: AI 는 10 분 전의 화면과 1 초 전의 화면을 똑같이 고화질로 기억하려 합니다.
    • 현실: 사람은 10 분 전 일은 흐릿하게 기억하고, 1 초 전 일은 선명하게 기억하죠 (최근 효과). AI 도 마찬가지인데, 과거의 낡은 정보를 고화질로 유지하는 건 낭비입니다.
  2. 공간 구조 파괴 (Spatial Topology Conflict)
    • 상황: 화면의 배경 (흰색 공간 등) 이 60% 이상을 차지합니다. AI 는 "배경은 중요하지 않으니 다 지워버리자"라고 생각해서 무작위로 정보를 잘라냅니다.
    • 문제: 하지만 화면의 배경 선이나 레이아웃은 "버튼이 어디에 있는지"를 알려주는 나침반 역할을 합니다. 이를 무작위로 지우면 AI 는 "버튼이 여기 있는 줄 알았는데, 실제로는 저기에 있었어!"라고 착각하게 되어 (공간 환각), 엉뚱한 곳을 클릭하게 됩니다.

💡 해결책: 'GUIPruner' (스마트한 정보 정리 도구)

이 문제를 해결하기 위해 연구팀은 **'GUIPruner'**라는 새로운 도구를 만들었습니다. 이 도구는 두 가지 핵심 전략을 사용합니다.

1. 시간별 적응형 해상도 (TAR) - "기억력 fading"

  • 비유: 사진 앨범 정리하기
    • 최근 사진 (오늘 아침): 고화질로 남깁니다. (정확한 행동이 필요하니까요)
    • 과거 사진 (어제, 일주일 전): 점점 흐릿하게 (저해상도) 줄입니다.
    • 효과: AI 는 "최근 일은 선명하게, 옛날 일은 대략적인 윤곽만 기억하자"라고 생각하게 되어, 불필요한 고화질 데이터 처리를 아껴줍니다.

2. 계층적 구조 인식 가지치기 (SSP) - "집안 정리하기"

  • 비유: 주방 정리하기
    • 1 단계 (주요 도구): 칼, 냄비 같은 **중요한 도구 (버튼, 입력창)**는 가장 선명하게 남깁니다.
    • 2 단계 (장식): 벽지나 식탁보 같은 배경 중 중요한 부분은 조금 남깁니다.
    • 3 단계 (그물망): 나머지는 **그물망 (Uniform Grid)**처럼 골고루 퍼져 있는 작은 조각만 남깁니다.
    • 핵심: 무작위로 자르지 않고, 화면의 전체적인 구조 (그물망) 를 유지하면서 불필요한 부분만 잘라냅니다. 이렇게 하면 AI 가 "버튼이 화면 어디에 있었지?"라고 헷갈리지 않습니다.

🚀 성과: 빠르고 똑똑해진 AI

이 방법을 적용한 결과, 놀라운 변화가 일어났습니다.

  • 속도: AI 가 화면을 보는 속도가 3.3 배 빨라졌습니다. (비서가 업무를 처리하는 속도가 3 배 빨라진 셈)
  • 자원: 컴퓨터가 쓰는 에너지 (FLOPs) 가 3.4 배 줄었습니다. (배터리가 오래 가는 셈)
  • 정확도: 속도가 빨라졌는데도, 정확도는 94% 이상 유지되었습니다. 심지어 기존 방법들은 정보를 너무 많이 줄이다가 AI 가 완전히 망가져서 (Performance Collapse) 일을 못 하던 상황에서도, 이 방법은 안정적으로 작동했습니다.

📝 한 줄 요약

이 논문은 **"AI 비서가 화면을 볼 때, 과거는 흐릿하게, 현재는 구조를 해치지 않으면서 중요한 부분만 선명하게 남기는 지혜로운 방법"**을 찾아내어, 고해상도 화면에서도 빠르고 정확하게 일할 수 있게 만들었습니다.

이제 AI 는 더 이상 "모든 것을 다 보려고" 지치지 않고, "필요한 것만 똑똑하게 보고" 빠르게 움직일 수 있게 된 것입니다!

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →