IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

이 논문은 DSA 모델의 레이어 간 인덱스 중복성을 활용하여 인덱서 연산을 75% 절감하면서도 품질 저하 없이 프리필 및 디코딩 속도를 각각 최대 1.82 배와 1.48 배 가속화하는 'IndexCache'를 제안합니다.

Yushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li

게시일 2026-03-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚀 IndexCache: 거대한 AI 의 '지혜로운 메모리'를 만드는 방법

이 논문은 거대한 인공지능 (LLM) 이 아주 긴 문서를 읽거나 복잡한 작업을 할 때, 속도를 획기적으로 빠르게 만들면서도 지능을 잃지 않는 방법을 소개합니다. 이름은 **IndexCache(인덱스 캐시)**입니다.

이 기술을 이해하기 위해 거대한 도서관열혈 사서에 비유해 보겠습니다.


1. 문제: 왜 AI 는 느릴까요? (기존 방식의 비효율)

상상해 보세요. **300 권의 책 (토큰)**이 쌓인 거대한 도서관이 있습니다. AI 는 이 책들 중에서 지금 질문과 가장 관련 있는 **20 권 (Top-k)**만 골라 읽어야 합니다.

  • 기존 방식 (DeepSeek Sparse Attention):
    매번 새로운 질문이 들어올 때마다, 도서관의 **모든 층 (레이어)**에 있는 **별도의 사서 (인덱서)**가 나옵니다.
    • 이 사서들은 300 권의 책을 모두 훑어보며 "이 20 권이 가장 중요해!"라고 체크합니다.
    • 문제는 도서관이 47 층이나 된다는 점입니다. 47 층마다 사서가 나와서 300 권을 다 훑어보면, 시간이 너무 많이 걸립니다.
    • 특히 책이 200,000 권으로 늘어나면, 사서들이 책을 찾는 데 걸리는 시간이 전체 작업의 80% 이상을 차지하게 되어 AI 가 매우 느려집니다.

2. 통찰: "층마다 사서가 따로 필요할까?"

연구자들은 흥미로운 사실을 발견했습니다.

"인접한 층 (Layer) 들이 골라낸 중요한 책 20 권은 거의 똑같아!"

1 층 사서가 골라낸 책과 2 층 사서가 골라낸 책, 3 층 사서가 골라낸 책이 90% 이상 겹친다면, 굳이 47 층마다 사서를 고용해서 똑같은 일을 반복할 필요가 없습니다.

3. 해결책: IndexCache (인덱스 캐시)

이제 IndexCache라는 새로운 시스템을 도입합니다.

  • 전략: 모든 층에 사서를 두지 않습니다. 대신 **몇몇 층 (Full Layer)**에만 '주사서'를 두고, 나머지 층 (Shared Layer) 은 가장 가까운 주사서가 골라낸 목록을 그대로 가져다 씁니다.
  • 비유:
    • 주사서 (Full Layer): 1 층, 5 층, 9 층... 등 간격마다 한 명씩만 배치합니다. 이 사서들은 300 권을 다 훑어보며 최고의 20 권을 골라 **메모장 (캐시)**에 적어둡니다.
    • 보조 사서 (Shared Layer): 그 사이의 층들은 메모장을 보고 "아, 5 층 사서가 골라낸 20 권이니까 이걸로 읽자!"라고 바로 따라합니다.
    • 결과: 47 층 중 **75% (약 35 개)**의 사서 노동을 없애버렸습니다.

4. 두 가지 실행 방법

이 시스템을 어떻게 적용할지 두 가지 방법이 있습니다.

A. 훈련 없이 적용하기 (Training-Free)

  • 상황: 이미 훈련이 끝난 AI 모델을 바로 쓰고 싶을 때.
  • 방법: "어떤 층의 사서를 없애도 지장이 없을까?"를 실험해 봅니다.
    • 단순히 1 층, 5 층, 9 층... 이렇게 규칙적으로 빼면 안 됩니다. (일부 층은 매우 민감해서 사서가 꼭 필요할 수 있음)
    • 대신 **작은 시험지 (Calibration Set)**를 보고, "이 층의 사서를 없애면 점수가 가장 안 떨어지는 곳"을 찾아서 그리디 (Greedy) 알고리즘으로 최적의 조합을 찾습니다.
    • 결과: 사서 75% 를 줄였는데도, AI 의 지능 (성능) 은 거의 변하지 않았습니다.

B. 훈련해서 적용하기 (Training-Aware)

  • 상황: 처음부터 AI 를 새로 만들거나 다시 훈련시킬 때.
  • 방법: 주사서에게 "너는 1 층뿐만 아니라, 2 층과 3 층의 사서 역할도 함께 해줘"라고 가르칩니다.
    • 주사서가 골라낸 20 권이 자신뿐만 아니라 그 아래 층들까지 모두 만족하도록 훈련시킵니다.
    • 결과: 규칙적으로 사서를 줄여도 (예: 1 층, 5 층, 9 층...) 성능이 떨어지지 않습니다. AI 가 새로운 상황에 스스로 적응하는 법을 배운 것입니다.

5. 실제 효과: 얼마나 빨라졌나요?

  • 속도 향상: 긴 문서를 읽을 때 (20 만 토큰), 처음 단어를 찾는 속도 (Prefill) 가 1.8 배 빨라졌습니다.
  • 처리량: 한 번에 더 많은 요청을 처리할 수 있게 되어, 답변을 생성하는 속도 (Decode) 가 1.5 배 빨라졌습니다.
  • 품질: 지능이나 추론 능력은 거의 떨어지지 않았습니다. (오히려 일부 추론 능력은 더 좋아지기도 함)

6. 결론: 왜 이것이 중요한가요?

이 기술은 AI 가 긴 문서를 읽거나 복잡한 작업을 할 때 발생하는 '병목 현상'을 해결합니다.

마치: 거대한 도서관에서 47 명의 사서가 모두 300 권의 책을 일일이 찾아보느라 지쳐있을 때, 가장 똑똑한 사서 10 명만 일하게 하고 나머지는 그 목록을 공유하게 만든 것과 같습니다.

이제 AI 는 더 긴 문맥을 더 빠르게, 더 저렴하게 처리할 수 있게 되었습니다. 앞으로 나오는 거대 AI 모델들 (GLM-5 등) 에도 이 기술이 적용되어 우리가 더 빠르고 똑똑한 AI 를 경험하게 될 것입니다.