Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection

이 논문은 어텐션 메커니즘에서 쿼리와 키의 역할이 값보다 차원이 낮아도 충분하다는 통찰을 바탕으로, 키 차원을 축소하여 KV 캐시를 대폭 줄이면서도 모델 성능을 거의 유지하는 비대칭 어텐션 기법을 제안하고 이를 통해 7B 파라미터 모델에서 25GB 의 캐시 절감 및 동시 사용자 60% 증가 효과를 입증했습니다.

Hengshuai Yao, Guan Wang

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 의 '기억장'이 너무 무겁다

지금까지의 AI(트랜스포머) 는 문장을 이해할 때 세 가지 역할을 하는 데 똑같은 크기의 공간을 할당했습니다.

  • 질문 (Query): "무엇을 찾아야 하지?"
  • 열쇠 (Key): "이 정보가 뭐지?" (검색용)
  • 내용물 (Value): "정작 중요한 정보는 뭐야?" (실제 데이터)

기존 방식은 이 세 가지가 모두 거대한 책장 (높은 차원) 을 차지합니다. 특히 AI 가 긴 문장을 처리할 때, 과거의 모든 '열쇠 (Key)'를 메모리에 쌓아두어야 하는데, 이 **메모리 (KV Cache)**가 너무 커져서 한 번에 많은 사용자를 받거나 긴 글을 읽을 때 컴퓨터가 터져버리는 문제가 생깁니다.

2. 해결책: "검색용 열쇠는 얇게, 내용물은 그대로"

이 논문은 **"질문과 열쇠는 아주 작게 만들어도 되는데, 내용물은 그대로 두면 된다"**는 사실을 발견했습니다.

🗝️ 비유: 도서관 사서와 책장

  • 기존 방식: 사서가 책을 찾을 때, 책 표지 (Key) 에 책의 전체 내용 (Value) 을 다 적어두고, 그걸 찾기 위해 거대한 책장 전체를 훑어봅니다. 책장이 너무 커서 사서가 지칩니다.
  • 이 논문의 방식:
    1. 얇은 열쇠 (Thin Keys): 사서가 책을 찾을 때, 책 표지에 책의 제목과 번호만 아주 작게 적습니다. (예: "소설, 3 번 선반"). 이 정보는 아주 작아도 책을 찾는 데 충분합니다.
    2. 꽉 찬 내용물 (Full Values): 하지만 책장 안의 **책 내용 (Value)**은 그대로 두어, 필요한 정보를 뽑아낼 때 풍성하게 가져옵니다.

즉, **"무엇을 찾을지 결정하는 과정 (선택)"**은 아주 간단한 정보만 있으면 되지만, **"실제 정보를 전달하는 과정 (전달)"**은 풍부한 정보가 필요하다는 것입니다.

3. 실험 결과: "작은 열쇠로 큰 성과"

연구진은 이 아이디어를 다양한 AI 모델에 적용해 보았습니다.

  • 단순한 게임: "10 번 전의 단어를 찾아라" 같은 게임은 열쇠를 1 개만 써도 100% 성공했습니다. (위치만 기억하면 됨)
  • 복잡한 언어: 위키피디아 같은 긴 글을 학습할 때도, 열쇠의 크기를 4 분의 1 로 줄였을 때 AI 의 실력 (언어 이해도) 은 거의 떨어지지 않았습니다. (오직 4% 정도만 감소)
  • 기존 모델 적용: 이미 만들어진 거대 AI(GPT-2, Mistral-7B 등) 에도 이 기술을 적용할 수 있었습니다. 열쇠만 압축하고, 아주 적은 데이터로 다시 훈련시키니, 기억 공간은 75% 줄이면서도 성능은 거의 그대로 유지되었습니다.

4. 왜 이것이 중요한가? (실제 효과)

이 기술이 적용되면 어떤 일이 일어날까요?

  • 메모리 폭탄 해결: 긴 문장 (예: 128,000 단어) 을 처리할 때, 한 사용자의 AI 가 차지하는 메모리가 25GB나 줄어듭니다.
  • 더 많은 사용자: 같은 그래픽 카드 (GPU) 로 약 60% 더 많은 사람이 동시에 AI 를 쓸 수 있게 됩니다.
  • 비용 절감: 서버를 더 많이 살 필요가 없어져서 AI 서비스 비용이 크게 내려갑니다.

5. 요약: "선택은 간단하고, 전달은 풍부하게"

이 논문의 핵심 메시지는 **"모든 것을 똑같이 크게 만들 필요는 없다"**는 것입니다.

  • 기존: 질문, 열쇠, 내용물 = 모두 거대함 (비효율적)
  • 새로운 방식: 질문과 열쇠 = 얇고 작음 (선택만 하면 됨), 내용물 = 거대함 (정보 전달 필요)

이처럼 AI 의 '검색용 열쇠'를 얇게 만들면, AI 가 기억해야 할 공간이 획기적으로 줄어들어 더 빠르고, 더 저렴하며, 더 많은 사람이 사용할 수 있는 AI 시대가 열리게 됩니다. 마치 거대한 도서관에서 책장만 줄이고 책 내용은 그대로 두어, 사서가 더 빠르게 책을 찾아주는 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →