FASA: Frequency-aware Sparse Attention

본 논문은 RoPE 의 주파수-조각 (FC) 수준에서 발견된 기능적 희소성을 활용하여 쿼리 인식 토큰 제거를 수행함으로써 긴 컨텍스트 처리 시 KV 캐시 메모리 병목 현상을 해결하고 기존 방법들을 능가하는 성능을 보여주는 FASA 프레임워크를 제안합니다.

Yifei Wang, Yueqi Wang, Zhenrui Yue, Huimin Zeng, Yong Wang, Ismini Lourentzou, Zhengzhong Tu, Xiangxiang Chu, Julian McAuley

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

FASA: 거대한 언어 모델의 '기억력'을 가볍게 만드는 마법

이 논문은 최근 화두가 되고 있는 **거대 언어 모델 (LLM)**이 긴 글을 읽거나 복잡한 문제를 풀 때 겪는 '기억 과부하' 문제를 해결하는 새로운 방법, FASA를 소개합니다.

🧠 문제: 거대한 뇌, 하지만 기억 공간이 부족해요

생각해 보세요. 우리가 아주 긴 소설을 읽거나, 방대한 양의 코드 파일을 분석할 때, 머릿속에 모든 내용을 다 기억해 두려면 얼마나 많은 공간이 필요할까요?

AI 모델도 마찬가지입니다. 긴 문장을 처리할 때, 모델은 과거의 모든 단어 (토큰) 에 대한 정보를 **'KV 캐시 (Key-Value Cache)'**라는 메모리에 저장해 둡니다. 하지만 문장이 길어질수록 이 메모리는 기하급수적으로 커져서, 고가의 그래픽 카드 (GPU) 메모리를 다 차지해 버립니다. 마치 책상 위에 모든 책과 자료를 펼쳐놓고 일하는 것처럼, 공간이 부족해지면 작업 속도가 느려지고 비용이 폭증합니다.

기존 방법들은 이 문제를 해결하기 위해 "중요하지 않은 정보를 버리자"라고 제안했습니다. 하지만 이는 두 가지 큰 문제가 있었습니다:

  1. 고정된 규칙 (Static): "처음 10 개 단어와 마지막 10 개 단어만 남긴다"처럼 무조건적인 규칙을 쓰면, 중간에 정말 중요한 정보가 사라질 수 있습니다.
  2. 추측성 (Heuristic): "최근에 나온 단어일수록 중요할 거야"라고 추측하는 방식인데, 질문의 내용 (Query) 에 따라 중요도가 달라지는 것을 제대로 반영하지 못합니다.

💡 해결책: FASA (주파수 인식형 희소 어텐션)

저자들은 **"모든 단어가 다 중요하지는 않다. 하지만 어떤 단어가 중요한지는 질문을 들어야 알 수 있다"**는 사실을 발견했습니다. 그리고 이를 해결하기 위해 FASA라는 새로운 방법을 개발했습니다.

🎻 핵심 아이디어: "악기 줄 (주파수) 의 비밀"

FASA 의 가장 큰 혁신은 **RoPE (회전 위치 인코딩)**라는 기술의 숨겨진 성질을 발견한 데서 시작합니다.

  • 비유: AI 모델의 기억을 오케스트라라고 상상해 보세요. 각 악기 (주파수 대역) 는 서로 다른 역할을 합니다.
    • 어떤 악기들은 **위치 (시간)**를 알려주는 리듬을 담당합니다 (구조적 역할).
    • 어떤 악기들은 **의미 (내용)**를 전달하는 멜로디를 담당합니다 (맥락적 역할).

연구자들은 이 오케스트라에서 **실제 이야기 (맥락) 를 이해하는 데 결정적인 역할을 하는 몇몇 '주요 악기들 (Dominant Frequency Chunks)'**만 존재한다는 사실을 발견했습니다. 나머지 90% 이상의 악기들은 위치를 알려주는 배경음일 뿐, 실제 의미 파악에는 크게 기여하지 않는다는 것입니다.

🚀 FASA 의 작동 원리: 2 단계 전략

FASA 는 이 '주요 악기들'을 이용해 두 단계로 기억을 정리합니다.

  1. 1 단계: 중요한 단어 찾기 (Token Importance Prediction)

    • 모델이 새로운 질문을 받으면, 훈련 없이 (Training-free) 미리 정해진 '주요 악기들'만 이용해 "지금 이 문맥에서 어떤 단어가 가장 중요할까?"를 빠르게 계산합니다.
    • 마치 도서관 사서가 책의 제목과 목차 (주요 악기) 만 보고, 어떤 책이 필요한지 빠르게 찾아내는 것과 같습니다. 전체 책을 다 읽을 필요 없이, 중요한 책만 골라냅니다.
  2. 2 단계: 집중된 계산 (Focused Attention Computation)

    • 1 단계에서 골라낸 소수의 중요한 단어들만 가지고, 나머지 불필요한 단어들은 완전히 무시한 채 정밀한 계산을 수행합니다.
    • 이렇게 하면 메모리 사용량은 획기적으로 줄어든 반면, 정확도는 거의 떨어지지 않습니다.

🌟 FASA 의 두 가지 버전

사용자의 필요에 따라 두 가지 버전으로 제공됩니다:

  • FASA-M (메모리 최적화): 메모리가 부족한 환경 (예: 일반 사용자 PC) 에 적합합니다. 중요한 정보만 GPU 에 남기고 나머지는 CPU 메모리로 옮겨서 저장합니다.
  • FASA-C (연산 최적화): 속도가 중요한 환경에 적합합니다. 메모리는 다 쓰더라도, 불필요한 계산만 빼고 빠르게 처리합니다.

📊 성과: "기억의 18% 로 100% 성능"

실험 결과, FASA 는 놀라운 성과를 보였습니다.

  • LongBench라는 긴 문서 이해 테스트에서, 전체 기억 (KV 캐시) 의 256 개 단어만 남겼음에도 불구하고, 전체 기억을 다 사용했을 때의 성능과 거의 100% 동일한 결과를 냈습니다.
  • AIME24라는 어려운 수학 문제 풀이에서는, 기억 공간의 18.9% 만 사용하면서도 2.56 배 빠른 속도를 달성했습니다.

🎯 결론

FASA 는 **"무조건 다 기억하는 것"이 아니라, "질문에 맞춰 필요한 것만 똑똑하게 골라내는 것"**이 AI 의 효율성을 높이는 핵심임을 증명했습니다.

이 기술은 마치 바쁜 변호사가 수천 페이지의 증거 자료 중, 사건 해결에 결정적인 단서 몇 가지만 골라내어 재판에 임하는 것과 같습니다. 덕분에 우리는 더 긴 문서를, 더 복잡한 문제를, 더 적은 비용과 더 빠른 속도로 처리할 수 있게 되었습니다.