Efficient Long-Horizon GUI Agents via Training-Free KV Cache Compression

Each language version is independently generated for its own context, not a direct translation.

🎒 비유: "무거운 배낭을 들고 긴 여행을 하는 등산가"

상상해 보세요. AI 는 등산가이고, 컴퓨터 화면 (GUI) 을 보고 버튼을 누르거나 메뉴를 찾는 긴 여행을 하고 있습니다.

문제점 (기존 방식):
- 등산가는 여행 내내 본 모든 풍경 (과거의 화면들) 을 **배낭 (KV 캐시)**에 쑤셔 넣습니다.
- 문제는 여행이 길어질수록 배낭이 너무 무거워진다는 것입니다.
- 배낭이 무거우면 발걸음이 느려지고 (지연 시간 발생), 더 이상 물이나 식량을 담을 공간이 없어져서 (메모리 부족) 여행을 포기해야 할 수도 있습니다.
- 기존 기술들은 "최근에 본 것만 기억하자"거나 "층마다 다른 양만 담자"는 식으로 배낭을 정리하려 했지만, **컴퓨터 화면의 특성 (단순한 배경과 중요한 버튼이 섞여 있음)**을 제대로 이해하지 못해, 정작 중요한 버튼은 버리고 쓸데없는 하늘색 배경만 기억하는 실수를 저질렀습니다.
해결책 (ST-Lite):
- 이 논문은 **"배낭을 정리하는 새로운 규칙 (ST-Lite)"**을 제안합니다. 이 규칙은 AI 를 훈련시키지 않고도 (Training-Free) 바로 적용할 수 있습니다.
- 이 규칙은 두 가지 핵심 원칙을 따릅니다.

🔍 두 가지 핵심 원칙

1. "중요한 사물 찾기" (CSS: Component-centric Spatial Saliency)

비유: 화면은 대부분 **흰색 벽 (배경)**이지만, 그 위에 **문 (버튼), 창문 (아이콘)**이 있습니다.
기존 방식: 벽과 문이 섞여 있는 전체 사진을 다 기억하려 했습니다.
ST-Lite 의 방식: "벽은 다 버리고, 문과 창문의 가장자리에만 집중하자!"라고 말합니다.
효과: 화면의 구조를 해치지 않으면서, 불필요한 배경색 (흰 벽) 은 과감히 배낭에서 꺼냅니다. 중요한 버튼은 선명하게 남깁니다.

2. "반복되는 과거 삭제" (TSG: Trajectory-aware Semantic Gating)

비유: 여행 중 10 분 동안 **같은 풍경 (예: 계속 같은 화면에 있는 배경)**을 보고 있다면, 그 10 분 동안의 모든 사진을 다 기억할 필요가 없습니다.
기존 방식: "과거의 모든 사진이 중요할지도 몰라"라며 다 저장했습니다.
ST-Lite 의 방식: "지금 보고 있는 화면과 과거의 화면이 똑같다면? 그건 중복이니까 지워버려!"라고 말합니다.
효과: AI 가 과거의 **쓸데없는 정보 (노이즈)**에 혼란을 느끼지 않도록, 진짜 새로운 변화가 있을 때만 기억을 업데이트합니다.

🚀 이 방법의 놀라운 결과

이 새로운 정리법 (ST-Lite) 을 적용한 결과, 놀라운 일들이 일어났습니다.

배낭이 80~90% 가벼워졌습니다: 필요한 메모리를 10~20% 만 쓰게 되어, 일반 컴퓨터에서도 AI 를 빠르게 돌릴 수 있게 되었습니다.
속도가 2.45 배 빨라졌습니다: 무거운 배낭을 덜어냈으니, AI 가 다음 행동을 결정하는 속도가 훨씬 빨라졌습니다.
오히려 더 똑똑해졌습니다 (Less is More): 재미있는 점은, 불필요한 정보를 덜 기억할수록 AI 가 더 잘한다는 것입니다. 과거의 쓸데없는 정보 (노이즈) 가 AI 의 판단을 흐리게 하던 것을, 이 방법이 깨끗이 제거해 주었기 때문입니다.

💡 결론

이 논문은 **"AI 가 긴 작업을 할 때, 모든 것을 다 기억하려 하지 말고, '중요한 구조 (버튼)'와 '새로운 변화'만 기억하게 하면, 배낭도 가볍고 속도는 빠르고 실력도 더 좋아진다"**는 것을 증명했습니다.

이 기술이 적용되면, 앞으로 우리가 스마트폰이나 컴퓨터에서 복잡한 작업을 AI 에게 맡길 때, 더 빠르고, 더 저렴하며, 더 똑똑한 AI 비서를 만날 수 있게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 비전 - 언어 모델 (VLM) 기반의 자율 GUI 에이전트가 복잡한 디지털 환경을 탐색하고 다단계 워크플로우를 실행하는 데 필수적이 되었습니다.
핵심 문제:
- KV 캐시 메모리 병목 현상: 고해상도 스크린샷과 긴 상호작용 트레일 (long-horizon trajectories) 을 처리할 때, Key-Value(KV) 캐시의 크기가 시퀀스 길이에 비례하여 급격히 증가합니다. 이는 GPU 메모리 포화 및 추론 지연을 초래하여 소비자급 하드웨어에서의 실시간 배포를 제한합니다.
- 기존 방법의 한계:
  - 계층적 할당 (PyramidKV, VL-Cache 등): LLM 이나 일반 비전 모델에서는 계층별로 주석 (attention) 희소성이 다르게 나타나지만, GUI 환경에서는 모든 트랜스포머 계층에서 균일한 고희소성 (uniform high-sparsity) 패턴을 보입니다. 기존 방법의 계층적 예산 할당 가정이 GUI 구조와 불일치하여 중요한 UI 요소가 손실됩니다.
  - 국소적 최적화 함정 (SnapKV 등): 최근 관찰 윈도우 (local observation window) 기반의 탐욕적 선택 방식은 긴 상호작용 과정에서 과거의 중요한 UI 요소 (예: 멀리 떨어진 버튼) 를 놓치고 국소적 노이즈에 집중하게 되어, 전역적 공간 - 궤적 의존성을 포착하지 못합니다.

2. 제안 방법: ST-Lite (Methodology)

저자들은 **ST-Lite (Spatio-Trajectory Lite)**라는 훈련이 필요 없는 (training-free) KV 캐시 압축 프레임워크를 제안합니다. 이 프레임워크는 GUI 데이터의 고유한 특성인 **동적 공간 - 궤적 의존성 (dynamic spatio-trajectory dependencies)**을 명시적으로 해결하기 위해 두 가지 핵심 모듈을 통합합니다.

2.1 구성 요소 중심 공간 중요도 (Component-centric Spatial Saliency, CSS)

목적: GUI 인터페이스의 구조적 무결성 (구조적 경계) 을 보존합니다.
원리:
- GUI 는 균일한 배경 위에 이산적인 기능적 요소 (버튼, 아이콘 등) 가 배치된 구조를 가집니다.
- **모어 이웃 (Moore Neighborhood, 3x3 그리드)**을 사용하여 토큰의 국소적 이웃과 코사인 유사도를 계산합니다.
- 균일성 점수 (Uniformity Score): 이웃과 유사도가 높으면 배경 (중요도 낮음), 낮으면 구조적 경계 (중요도 높음) 로 판단합니다.
- 공간 중요도 점수 ( $\Phi_{space}$ ): 균일성의 보수로 정의하여, 배경 노이즈는 제거하고 UI 요소의 골격을 보존합니다.

2.2 궤적 인식 의미 게이트 (Trajectory-aware Semantic Gating, TSG)

목적: 긴 상호작용 과정에서 발생하는 역사적 중복 (historical redundancy) 을 필터링합니다.
원리:
- 현재 프레임과 과거 프레임 간의 의미적 변화를 감지합니다.
- 과거 토큰과 현재 프레임 간의 최대 코사인 유사도를 계산하여 중복 점수 ( $\rho_i$ ) 를 산출합니다.
- 동적 임계값 ( $\tau_{red}$ ): 목표 예산 (Budget) 에 따라 자동으로 조정되는 임계값을 설정하여, 시각적으로 반복되거나 의미적으로 중복된 KV 쌍을 강제로 제거 (Evict) 합니다.
- 이를 통해 에이전트가 불필요한 과거 정보에 방해받지 않고 핵심 상태 전이 (state transitions) 만을 기억하도록 합니다.

2.3 통합 KV 제거 정책

두 모듈의 결과를 결합하여 최종 토큰 점수를 산출합니다.
- 텍스트 토큰: 기본 주의 우선순위 (Base Attention Prior) 를 사용.
- 비전 토큰: TSG 게이트 (과거 중복 필터링) 가 통과된 경우에만, 기본 주의 점수에 CSS 공간 점수를 가산하여 최종 선택합니다.
최종적으로 상위 $B$ 개의 토큰만 KV 캐시에 유지합니다.

3. 주요 기여 (Key Contributions)

체계적인 진단 분석: 기존 압축 방법들이 GUI 환경에서 실패하는 근본 원인 (계층적 할당의 불일치, 국소적 최적화 함정) 을 수학적으로 규명하고, GUI 의 '균일한 고희소성' 특성을 입증했습니다.
ST-Lite 프레임워크 개발: 훈련 데이터 없이 공간적 구조 보존 (CSS) 과 역사적 중복 제거 (TSG) 를 동시에 수행하는 새로운 압축 전략을 제시했습니다.
실증적 검증: 다양한 벤치마크에서 기존 방법들을 압도하는 성능과 효율성을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: ScreenSpot Pro, AITW (Android in the Wild), AgentNetBench 등 7 개 GUI 벤치마크.
모델: UI-TARS-1.5-7B, OpenCUA-7B 등 다양한 아키텍처에서 테스트.
성능:
- 압축 비율: 캐시 예산을 **10~20%**로 제한했을 때, 풀 캐시 (Full Cache) 기반선과 비교해 동등하거나 더 우수한 성능을 달성했습니다.
- 성공률 향상: AITW 및 AgentNetBench 에서 평균 **7.3%**만큼 성공률이 향상되었습니다. 특히 AITW 의 경우, 20% 예산에서 풀 캐시 (18.7%) 보다 높은 **20.7%**의 성공률을 기록하여 "Less-is-More" 현상 (불필요한 노이즈 제거로 인한 성능 향상) 을 입증했습니다.
- 기존 방법 대비: SnapKV, PyramidKV, VL-Cache 등 SOTA 방법들보다 모든 벤치마크에서 일관되게 우월한 성능을 보였습니다.
효율성:
- 추론 가속화: 10 프레임 이상의 긴 히스토리에서 디코딩 속도가 2.45 배 가속화되었습니다.
- 오버헤드: 프리필 (Prefill) 단계의 오버헤드는 무시할 수준 (약 1.0 배) 이며, 전체 시스템 속도는 약 1.4 배 향상되었습니다.

5. 의의 및 결론 (Significance)

자원 제약 환경 해결: 고해상도 GUI 에이전트의 메모리 병목 현상을 해결하여, 소비자급 하드웨어에서도 긴 상호작용이 가능한 자율 에이전트 배포를 가능하게 합니다.
패러다임 전환: 수동적인 토큰 유지에서 **의미 기반의 능동적 선택 (Active, Semantics-driven Selection)**으로 압축 패러다임을 전환했습니다.
일반화 가능성: 특정 모델 아키텍처나 학습 방식 (SFT, RLHF) 에 의존하지 않는 모델 무관한 (model-agnostic) 솔루션으로, 다양한 VLM 기반 에이전트에 적용 가능합니다.

요약하자면, ST-Lite 는 GUI 에이전트의 장기 작업 수행 능력을 저해하는 KV 캐시 과부하 문제를, 공간적 구조 보존과 시간적 중복 제거라는 두 가지 핵심 전략을 통해 훈련 비용 없이 해결한 획기적인 연구입니다.