SideQuest: Model-Driven KV Cache Management for Long-Horizon Agentic Reasoning

이 논문은 긴 시간의 에이전트 작업에서 기존 휴리스틱 방법의 한계를 극복하고, LRM 이 자체적으로 토큰의 유용성을 추론하여 KV 캐시를 압축하는 병렬 보조 작업인 'SideQuest'를 제안함으로써 피크 토큰 사용량을 최대 65% 줄이면서도 정확도 저하를 최소화하는 새로운 접근법을 제시합니다.

Sanjay Kariyappa, G. Edward Suh

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 배경: AI 의 '기억 과부하' 문제

상상해 보세요. AI 가 아주 복잡한 조사 작업을 한다고 칩시다. 예를 들어, "2026 년 GTC 컨퍼런스 이후 첫 긴 주말은 언제야?"라고 물었을 때, AI 는 인터넷을 검색하고, 여러 웹페이지를 열고, 날짜를 확인하고, 공휴일 목록을 찾아야 합니다.

이 과정에서 AI 는 **수십만 개의 정보 조각 (토큰)**을 기억해야 합니다.

  • 기존 방식 (Heuristic): AI 는 "아까 검색했던 첫 번째 페이지는 이제 쓸모없겠지"라고 단순한 규칙 (예: "가장 최근에 본 것만 남기고 나머지는 지우기") 으로 기억을 정리합니다.
  • 문제점: 하지만 AI 가 복잡한 추론을 할 때는 어떤 정보가 지금엔 쓸모없어 보이지만, 나중에 갑자기 핵심이 될 수도 있습니다. 단순한 규칙으로 지우면 중요한 정보를 실수로 삭제해 버려서, AI 가 엉뚱한 답을 하거나 작업을 멈추게 됩니다. 마치 책상 위에 중요한 서류를 '쓰레기'로 착각하고 버리는 것과 같습니다.

✨ SideQuest: AI 가 스스로 기억을 정리하는 방법

SideQuest 는 이 문제를 해결하기 위해 AI 스스로가 "무엇을 기억하고 무엇을 버릴지 판단하게" 합니다.

1. 비유: "메인 비서"와 "보조 정리 담당"

SideQuest 는 두 명의 직원이 함께 일하는 시스템을 상상해 보세요.

  • 메인 비서 (Main Thread): 사용자의 질문을 해결하기 위해 열심히 검색하고, 글을 쓰고, 논리적으로 생각하며 일을 진행합니다.
  • 보조 정리 담당 (Auxiliary Thread): 메인 비서가 일하는 동안, 나란히 (병렬로) 일하면서 책상 위를 살핍니다.
    • "저기, 1 번 검색 결과는 이미 2 번 페이지에서 날짜를 확인했으니 이제 필요 없네? 지워도 되겠다."
    • "하지만 2 번 페이지의 날짜 정보는 나중에 결론을 내릴 때 인용해야 하니까 남겨둬야지."

보조 담당은 메인 비서의 일을 방해하지 않으면서, 불필요한 정보 (오래된 검색 결과 등) 를 정확히 찾아내어 지시합니다.

2. 핵심 기술: "기억 관리 모드"

AI 는 평소에는 사용자의 질문에 답하지만, SideQuest 가 작동하면 **잠깐 '기억 관리 모드'**로 전환됩니다. 이때 AI 는 "이제 내가 정리할 시간이야"라고 생각하고, 현재 기억하고 있는 정보들 중에서 어떤 것이 더 이상 쓸모없는지 스스로 판단하여 삭제 명령을 내립니다.

이때 중요한 점은, 이 정리 작업이 메인 작업과 동시에 이루어지기 때문에 AI 가 일을 멈추고 정리할 필요가 없다는 것입니다. 마치 요리사가 요리를 하면서 옆에서 조수가 재료를 정리해 주는 것과 같습니다.

🚀 SideQuest 가 가져온 변화

이 논문의 실험 결과, SideQuest 는 놀라운 성과를 보였습니다.

  1. 메모리 65% 절약: AI 가 사용하는 기억 공간 (메모리) 을 최대 65% 까지 줄였습니다. 이는 마치 책상 위를 3 분의 1 로 줄여서, 더 많은 사람이 동시에 일할 수 있게 만든 것과 같습니다.
  2. 정확도 유지: 정보를 많이 지웠지만, AI 가 답을 맞추는 정확도는 거의 떨어지지 않았습니다. 오히려 단순한 규칙을 쓰는 다른 방법들보다 훨씬 똑똑하게 작동했습니다.
  3. 유연한 대응: 작업이 쉬울 때는 정보를 적게, 복잡할 때는 정보를 많이 기억하도록 상황에 따라 자동으로 조절합니다.

📝 한 줄 요약

SideQuest는 AI 가 긴 작업을 할 때, 단순한 규칙이 아니라 AI 스스로가 "어떤 정보가 쓸모없는지" 판단하게 하여, 기억 공간을 효율적으로 정리하는 혁신적인 기술입니다.

이 기술 덕분에 AI 는 더 길고 복잡한 문제도, 더 적은 비용으로, 더 빠르게 해결할 수 있게 되었습니다. 마치 스스로 책상을 정리하는 똑똑한 비서가 생긴 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →