Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

이 논문은 토큰 단위 KV 캐시 제거와 PagedAttention 을 결합한 'Compressed PagedAttention'과 이를 구현한 'Zipage'를 제안하여, 대규모 수학 추론 작업에서 풀 KV 인ference 엔진의 성능을 약 95% 유지하면서 2.1 배 이상의 처리 속도 향상을 달성함을 보여줍니다.

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu Wan

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

Zipage: 거대한 AI 의 기억력을 '압축'해서 더 빨리, 더 많이 처리하는 방법

이 논문은 최근 화제가 되는 '추론 (Reasoning)' 능력을 가진 거대한 인공지능 (LLM) 을 더 효율적으로 돌리기 위한 새로운 기술을 소개합니다.

핵심 아이디어를 쉽게 설명하기 위해 거대한 도서관책장에 비유해 보겠습니다.


1. 문제: 도서관이 너무 붐비고 책장이 부족해요 📚

대형 AI 모델이 질문에 답할 때, 마치 **책장 (메모리)**에 필요한 정보들을 계속 쌓아두는 과정이 필요합니다.

  • 기존 방식 (Full KV): AI 가 한 번에 많은 질문을 받으면, 모든 질문의 정보를 책장에 꽉꽉 채워야 합니다. 하지만 책장 (GPU 메모리) 은 한정되어 있습니다.
  • 결과: 책장이 꽉 차면 더 이상 새로운 질문을 받을 수 없게 됩니다. 혹은, 책장이 너무 커져서 한 번에 처리할 수 있는 질문의 수 (동시성) 가 급격히 줄어듭니다. 특히 수학이나 코딩처럼 긴 추론이 필요한 질문일수록 책장이 금방 가득 차버립니다.

2. 기존 해결책의 한계: 책장을 버리거나 정리하는 방법들

기존에는 책장에 쌓인 정보 중 '덜 중요한 것'을 버리거나 (Eviction), 페이지 단위로 정리하는 방법들이 있었습니다. 하지만 이 방법들은 두 가지 큰 문제가 있었습니다.

  1. 중요한 정보를 잘못 버림: 책장 전체를 통째로 정리하다 보니, 정작 나중에 꼭 필요한 핵심 정보까지 잃어버려 답이 틀어지는 경우가 많았습니다.
  2. 시스템이 느려짐: 현대적인 AI 시스템은 여러 질문을 동시에 처리하고, 공통된 앞부분 (접두어) 을 공유하는 등 고급 기능을 쓰는데, 기존 방법들은 이를 지원하지 못해 오히려 속도가 느려졌습니다.

3. Zipage 의 솔루션: "압축된 페이지 Attention" (Compressed PagedAttention)

저자들은 **'Zipage'**라는 새로운 시스템을 개발했습니다. 이 시스템은 다음과 같은 세 가지 마법 같은 기술을 사용합니다.

🧠 마법 1: 책장 한 칸에 딱 맞는 '압축' (Token-wise Eviction)

기존에는 책장 전체를 통째로 정리했지만, Zipage 는 단어 하나하나 (Token) 의 중요도를 따져서 불필요한 정보만 정교하게 제거합니다.

  • 비유: 책상 위에 쌓인 서류를 정리할 때, 통째로 쓰레기통에 버리는 게 아니라, 중요한 서류만 남기고 나머지는 미세하게 압축해서 책장 한 칸에 딱 맞게 정리하는 것입니다.
  • 효과: 책장 (메모리) 을 훨씬 더 효율적으로 써서, 같은 공간에 더 많은 질문을 동시에 처리할 수 있게 됩니다.

🚦 마법 2: 지능적인 교통 통제 (Hybrid Scheduling)

도서관에 사람들이 몰릴 때, 누가 먼저 들어갈지 정하는 규칙을 바꿨습니다.

  • 기존: 책장이 비어야만 새로운 사람이 들어갈 수 있어, 짧은 질문도 기다려야 했습니다.
  • Zipage: 짧은 질문은 즉시 처리하고, 긴 질문이 책장을 너무 많이 차지하면 그중 일부만 잠시 뒤로 밀어냅니다. 마치 고속도로의 차선 변경처럼, 상황에 따라 유연하게 공간을 재배분하여 전체적인 처리 속도를 높입니다.

🔄 마법 3: 동시에 일하는 '비동기' 작업 (Asynchronous Compression)

기존에는 정보를 정리 (압축) 하는 동안 AI 가 멈춰서 기다렸습니다.

  • Zipage: 정리하는 동안에도 AI 는 계속 일을 합니다. 정리 작업은 별도의 공간에서 동시에 이루어지므로, AI 가 멈추는 시간이 사라져 속도가 비약적으로 빨라집니다.

4. 결과: 속도는 2 배 이상, 정확도는 그대로! 🚀

이 기술을 적용한 Zipage는 다음과 같은 놀라운 성과를 냈습니다.

  • 속도: 기존 방식보다 2.1 배 이상 빨라졌습니다. (동일한 시간에 두 배 이상의 작업을 처리)
  • 정확도: 정보를 압축했음에도, 수학이나 코딩 같은 복잡한 추론 작업에서 기존 방식 (Full KV) 의 95% 수준의 정확도를 유지했습니다.
  • 동시성: 같은 메모리 공간에서 훨씬 더 많은 사용자를 한 번에 서비스할 수 있게 되었습니다.

📝 요약

Zipage는 거대한 AI 가 긴 대화를 하거나 복잡한 문제를 풀 때, 필요한 정보만 남기고 불필요한 기억을 지능적으로 압축하여 책장 (메모리) 을 효율적으로 쓰는 기술입니다.

마치 좁은 아파트에 살면서도, 지능적인 수납법으로 더 많은 물건을 깔끔하게 정리하고, 집안일을 더 빠르게 처리하는 것과 같습니다. 이로 인해 AI 서비스는 더 많은 사람을 더 빠르게, 더 정확하게 도와줄 수 있게 되었습니다.