Each language version is independently generated for its own context, not a direct translation.

Zipage: 거대한 AI 의 기억력을 '압축'해서 더 빨리, 더 많이 처리하는 방법

이 논문은 최근 화제가 되는 '추론 (Reasoning)' 능력을 가진 거대한 인공지능 (LLM) 을 더 효율적으로 돌리기 위한 새로운 기술을 소개합니다.

핵심 아이디어를 쉽게 설명하기 위해 거대한 도서관과 책장에 비유해 보겠습니다.

1. 문제: 도서관이 너무 붐비고 책장이 부족해요 📚

대형 AI 모델이 질문에 답할 때, 마치 **책장 (메모리)**에 필요한 정보들을 계속 쌓아두는 과정이 필요합니다.

기존 방식 (Full KV): AI 가 한 번에 많은 질문을 받으면, 모든 질문의 정보를 책장에 꽉꽉 채워야 합니다. 하지만 책장 (GPU 메모리) 은 한정되어 있습니다.
결과: 책장이 꽉 차면 더 이상 새로운 질문을 받을 수 없게 됩니다. 혹은, 책장이 너무 커져서 한 번에 처리할 수 있는 질문의 수 (동시성) 가 급격히 줄어듭니다. 특히 수학이나 코딩처럼 긴 추론이 필요한 질문일수록 책장이 금방 가득 차버립니다.

2. 기존 해결책의 한계: 책장을 버리거나 정리하는 방법들

기존에는 책장에 쌓인 정보 중 '덜 중요한 것'을 버리거나 (Eviction), 페이지 단위로 정리하는 방법들이 있었습니다. 하지만 이 방법들은 두 가지 큰 문제가 있었습니다.

중요한 정보를 잘못 버림: 책장 전체를 통째로 정리하다 보니, 정작 나중에 꼭 필요한 핵심 정보까지 잃어버려 답이 틀어지는 경우가 많았습니다.
시스템이 느려짐: 현대적인 AI 시스템은 여러 질문을 동시에 처리하고, 공통된 앞부분 (접두어) 을 공유하는 등 고급 기능을 쓰는데, 기존 방법들은 이를 지원하지 못해 오히려 속도가 느려졌습니다.

3. Zipage 의 솔루션: "압축된 페이지 Attention" (Compressed PagedAttention)

저자들은 **'Zipage'**라는 새로운 시스템을 개발했습니다. 이 시스템은 다음과 같은 세 가지 마법 같은 기술을 사용합니다.

🧠 마법 1: 책장 한 칸에 딱 맞는 '압축' (Token-wise Eviction)

기존에는 책장 전체를 통째로 정리했지만, Zipage 는 단어 하나하나 (Token) 의 중요도를 따져서 불필요한 정보만 정교하게 제거합니다.

비유: 책상 위에 쌓인 서류를 정리할 때, 통째로 쓰레기통에 버리는 게 아니라, 중요한 서류만 남기고 나머지는 미세하게 압축해서 책장 한 칸에 딱 맞게 정리하는 것입니다.
효과: 책장 (메모리) 을 훨씬 더 효율적으로 써서, 같은 공간에 더 많은 질문을 동시에 처리할 수 있게 됩니다.

🚦 마법 2: 지능적인 교통 통제 (Hybrid Scheduling)

도서관에 사람들이 몰릴 때, 누가 먼저 들어갈지 정하는 규칙을 바꿨습니다.

기존: 책장이 비어야만 새로운 사람이 들어갈 수 있어, 짧은 질문도 기다려야 했습니다.
Zipage: 짧은 질문은 즉시 처리하고, 긴 질문이 책장을 너무 많이 차지하면 그중 일부만 잠시 뒤로 밀어냅니다. 마치 고속도로의 차선 변경처럼, 상황에 따라 유연하게 공간을 재배분하여 전체적인 처리 속도를 높입니다.

🔄 마법 3: 동시에 일하는 '비동기' 작업 (Asynchronous Compression)

기존에는 정보를 정리 (압축) 하는 동안 AI 가 멈춰서 기다렸습니다.

Zipage: 정리하는 동안에도 AI 는 계속 일을 합니다. 정리 작업은 별도의 공간에서 동시에 이루어지므로, AI 가 멈추는 시간이 사라져 속도가 비약적으로 빨라집니다.

4. 결과: 속도는 2 배 이상, 정확도는 그대로! 🚀

이 기술을 적용한 Zipage는 다음과 같은 놀라운 성과를 냈습니다.

속도: 기존 방식보다 2.1 배 이상 빨라졌습니다. (동일한 시간에 두 배 이상의 작업을 처리)
정확도: 정보를 압축했음에도, 수학이나 코딩 같은 복잡한 추론 작업에서 기존 방식 (Full KV) 의 95% 수준의 정확도를 유지했습니다.
동시성: 같은 메모리 공간에서 훨씬 더 많은 사용자를 한 번에 서비스할 수 있게 되었습니다.

📝 요약

Zipage는 거대한 AI 가 긴 대화를 하거나 복잡한 문제를 풀 때, 필요한 정보만 남기고 불필요한 기억을 지능적으로 압축하여 책장 (메모리) 을 효율적으로 쓰는 기술입니다.

마치 좁은 아파트에 살면서도, 지능적인 수납법으로 더 많은 물건을 깔끔하게 정리하고, 집안일을 더 빠르게 처리하는 것과 같습니다. 이로 인해 AI 서비스는 더 많은 사람을 더 빠르게, 더 정확하게 도와줄 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 이 추론 (Reasoning) 능력을 갖추면서, 코딩 및 수학 문제 해결과 같은 복잡한 작업에서 긴 시퀀스 길이가 필수적이 되었습니다. 그러나 이러한 긴 시퀀스 처리는 **KV 캐시 (Key-Value Cache)**의 메모리 사용량을 급격히 증가시켜, 고동시성 (High Concurrency) 서비스의 주요 병목 현상이 되었습니다.

기존의 KV 캐시 삭제 (Eviction) 기법들은 다음과 같은 한계가 있었습니다:

시스템 수준의 비호환성: 많은 방법들이 알고리즘 수준에서는 메모리를 줄이지만, 현대 추론 엔진 (vLLM, SGLang 등) 의 핵심 기능인 **연속 배치 (Continuous Batching)**나 **프리픽스 캐싱 (Prefix Caching)**을 지원하지 않아 실제 처리량 (Throughput) 이 낮습니다.
성능 저하: 페이지 단위의 거친 삭제 (Coarse-grained page-wise eviction) 는 중요한 정보를 잃어 추론 성능을 떨어뜨립니다.
비효율성: 토큰 단위의 삭제 (Token-wise eviction) 를 지원하는 기존 방법 (예: KV-Compress) 은 입력만 압축하거나 프리픽스 캐시를 파괴하여 프리필링 (Prefilling) 비용을 증가시킵니다.

2. 방법론 (Methodology)

저자들은 Compressed PagedAttention이라는 새로운 KV 캐시 관리 방식을 제안하고, 이를 기반으로 한 고성능 추론 엔진 Zipage를 개발했습니다.

A. Compressed PagedAttention

PagedAttention 구조를 기반으로 하되, 토큰 단위의 KV 캐시 삭제를 계층 (Layer) 과 어텐션 헤드 (Head) 간에 유연하게 적용합니다.

블록 제한 및 압축: 각 요청이 점유하는 블록 수를 $N_{max}$ 로 제한합니다. 디코딩 단계에서 블록이 $N_{max}$ 에 도달하면, 덜 중요한 KV 캐시 엔트리를 삭제하고 중요한 엔트리들을 앞쪽 $N_{max}-1$ 개의 블록으로 재배치합니다. 남은 블록은 해방되어 다른 요청에 재사용됩니다.
관측 창 (Observation Window): 마지막 블록의 최근 $w$ 개의 토큰에 대한 쿼리 상태를 사용하여 중요도 점수를 계산합니다. 이 윈도우 내의 토큰은 항상 보존됩니다.

B. 하이브리드 스케줄링 (Hybrid Scheduling)

단순한 제약 스케줄링의 비효율성을 해결하기 위해 고안된 전략입니다.

쿼리 슬롯 할당: 압축이 필요한 요청에게만 쿼리 슬롯을 할당합니다.
블록 활용 최적화: $N_{max}$ 미만의 블록을 사용하는 짧은 요청들은 쿼리 슬롯 없이도 디코딩을 계속할 수 있게 하여, 메모리 블록의 유휴 시간을 줄이고 동시성을 극대화합니다.
선점 (Preemption) 관리: 블록이 부족할 때, 쿼리 슬롯이 할당되지 않은 요청을 우선적으로 선점하여 시스템의 정체를 방지합니다.

C. 공유 프리픽스 캐싱 (Shared Prefix Cache)

압축 과정에서 공유된 프리픽스 구조가 깨지는 문제를 해결합니다.

압축 대상 재배치: 공유된 블록 내부의 데이터를 재배치하는 대신, 새로운 '타겟 블록'을 할당하여 압축을 수행합니다. 이를 통해 공유된 블록의 참조 카운트를 유지하고, 압축 후에도 프리픽스 캐싱이 가능하도록 합니다.

D. 비동기 디코딩 및 압축 (Asynchronous Decoding & Compression)

압축 작업은 디코딩 작업에 비해 상대적으로 적은 비율 (약 10% 시간) 을 차지하지만, 순차적 실행 시 병목이 됩니다.
Zipage 는 비동기 실행을 통해, 압축이 필요한 요청은 다음 디코딩 단계로 넘어가고, 압축 작업은 GPU 리소스를 활용하여 병렬로 수행되도록 하여 전체 처리량을 높입니다.

E. 경량화 된 중복도 점수 (Lightning Redundancy Score)

기존의 중복도 점수 계산 ( $O(N^2 \times b^2)$ ) 은 계산 비용이 너무 큽니다. Zipage 는 시퀀스 내 토큰의 국소성 (Locality) 을 활용하여 블록 내 토큰 간의 유사성만 계산하는 Lightning Redundancy Score를 도입하여 계산 복잡도를 $O(N \times b^2)$ 로 줄이고 메모리 효율을 극대화했습니다.

3. 주요 기여 (Key Contributions)

Compressed PagedAttention: PagedAttention 과 토큰 단위 KV 캐시 삭제를 결합하여, 메모리 사용량을 고정된 상한선으로 유지하면서도 중요한 정보를 보존하는 새로운 메커니즘 제안.
Zipage 엔진 개발: 위 메커니즘을 구현한 고성능 LLM 추론 엔진으로, 프리픽스 캐싱, 비동기 압축, 하이브리드 스케줄링 등을 통합 지원.
효율적인 GPU 커널 최적화: 압축 과정에서의 연산을 가속화하기 위한 커널 설계 및 Lightning Redundancy Score 도입으로 압축 오버헤드 최소화.
실용적인 성능 달성: 산업 수준의 요구사항 (고동시성, 긴 시퀀스) 을 충족하면서도 Full KV 캐시 방식에 준하는 추론 성능을 유지.

4. 실험 결과 (Results)

수학 및 코딩 추론 작업 (AMC 23, AIME 24, LiveCodeBench 등) 에서 다양한 모델 (Qwen3, DS Llama) 을 대상으로 평가했습니다.

처리량 (Throughput): Full KV 캐시 기반 엔진 (Nano-vLLM) 대비 **2.1 배 이상 (최대 4.6 배)**의 속도 향상 (Speedup) 을 달성했습니다.
성능 유지: 압축을 적용하더라도 Full KV 캐시 방식 대비 **약 95%**의 추론 성능 (Pass@1) 을 유지했습니다. (예: AMC 23 에서 Budget 2048 기준 96.6% 성능 유지).
비동기 압축 효과: 비동기 압축을 사용하지 않을 때보다 TPS(초당 토큰 수) 가 모든 워크로드에서 일관되게 향상되었습니다.
동시성: 하이브리드 스케줄링과 공유 프리픽스 캐싱을 통해 짧은 응답이 많은 환경에서도 높은 동시성을 유지하며 블록 유휴 시간을 크게 줄였습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 추론 시스템이 직면한 메모리 병목 현상을 해결하면서도 고품질의 추론 성능을 유지할 수 있는 실용적인 솔루션을 제시했습니다.

산업적 적용 가능성: 기존 KV 캐시 삭제 기법들이 가진 시스템 통합의 어려움 (Continuous Batching, Prefix Caching 부재) 을 해결하여, 실제 산업 환경 (High-concurrency serving) 에 바로 적용 가능한 아키텍처를 제공합니다.
비용 효율성: 긴 추론 시퀀스를 처리하기 위해 고가의 GPU 메모리를 대량으로 확보할 필요 없이, 기존 하드웨어에서 더 많은 요청을 동시 처리할 수 있게 함으로써 운영 비용을 절감합니다.
미래 지향성: 온라인 엔진 구현을 위한 기반을 마련했으며, 향후 Chunked Prefilling 등 다른 최적화 기법과의 결합을 통해 더 발전할 수 있는 가능성을 열었습니다.

요약하자면, Zipage는 메모리 효율성과 추론 정확도 사이의 트레이드오프를 획기적으로 개선하여, 대규모 LLM 의 고동시성 추론 서비스를 가능하게 하는 핵심 기술로 평가됩니다.

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention