Scaling Attention via Feature Sparsity

이 논문은 시퀀스 축이 아닌 특징 축의 희소성을 활용하여 어텐션 비용을 획기적으로 줄이면서도 정확도를 유지하는 '희소 특징 어텐션 (SFA)'과 이를 위한 FlashSFA 커널을 제안함으로써 초장문맥 Transformer 의 확장을 가능하게 합니다.

Yan Xie, Tiansheng Wen, Tangda Huang, Bo Chen, Chenyu You, Stefanie Jegelka, Yifei Wang

게시일 2026-03-25
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 는 긴 글을 읽으면 '기억력'이 터집니다.

지금까지의 AI(트랜스포머) 는 긴 문서를 읽을 때, 모든 단어와 모든 단어를 서로 비교합니다.

  • 비유: 100 페이지의 책을 읽을 때, 1 페이지의 첫 번째 단어가 100 페이지의 마지막 단어와 어떤 관계가 있는지, 2 페이지의 두 번째 단어가 50 페이지의 세 번째 단어와 어떤 관계가 있는지... 모든 조합을 일일이 확인해야 합니다.
  • 결과: 책이 두꺼워질수록 (문맥이 길어질수록) AI 가 해야 할 계산량이 기하급수적으로 늘어납니다. 마치 도서관에서 모든 책을 서로 비교하며 내용을 찾아야 하는 사서처럼, 컴퓨터의 메모리와 전력을 다 써버리게 됩니다. 그래서 기존 방법들은 "일부 단어만 골라보겠다"거나 "단어를 짧게 줄이겠다"는 식으로 해결책을 냈는데, 이 방법은 AI 의 지능을 떨어뜨려서 정확도가 나빠지는 문제가 있었습니다.

2. 해결책: SFA(희소 특징 어텐션) - "모든 단어를 다 보지 말고, '핵심 키워드'만 보자!"

이 논문은 새로운 아이디어를 제시합니다. "단어 (토큰) 의 수를 줄이는 게 아니라, 단어 하나하나가 가진 '정보의 깊이'를 선택적으로 줄이자"는 것입니다.

  • 비유 (AI 의 눈):
    • 기존 AI: 책 한 장을 볼 때, 종이의 모든 픽셀 (점) 을 다 스캔합니다. (예: 1,000 개의 점 중 1,000 개 모두 확인)
    • 새로운 AI (SFA): 같은 책 한 장을 볼 때, 가장 중요한 10 개의 점 (핵심 특징) 만 골라 봅니다. 나머지는 무시합니다.
    • 핵심: AI 는 여전히 1,000 개의 단어를 다 읽지만, 각 단어를 분석할 때 가장 중요한 10 가지 특징 (예: '감정', '주제', '동사') 만 집중합니다. 나머지 990 가지 특징은 잠자게 둡니다.

이렇게 하면 계산량이 1,000 배에서 100 배 수준으로 줄어듭니다. 중요한 건, 핵심만 골라봐도 AI 는 원래의 지능을 잃지 않는다는 것입니다. 마치 전문가가 긴 보고서에서 '결론'과 '핵심 데이터'만 빠르게 훑어봐도 전체 내용을 완벽하게 이해하는 것과 같습니다.

3. 기술적 혁신: FlashSFA - "메모리 창고에 쓰레기를 쌓지 않는다"

단순히 계산만 줄인다면, AI 가 "어떤 10 가지를 골랐는지"를 기록하는 과정에서 다시 메모리가 폭주할 수 있습니다. 이를 위해 저자들은 FlashSFA라는 새로운 도구를 만들었습니다.

  • 비유:
    • 기존 방식: 모든 단어끼리 비교한 결과지 (점수표) 를 다 작성해서 책상에 쌓아둡니다. 책상이 너무 커져서 (메모리 부족) AI 가 쓰다 만다.
    • FlashSFA: 결과지를 다 쓰지 않고, 필요한 부분만 실시간으로 계산해서 바로바로 지워버립니다. 마치 요리사가 재료를 다 썰어놓고 요리하는 게 아니라, 필요한 재료만 바로바로 꺼내서 요리하는 방식입니다.
    • 효과: 컴퓨터의 메모리 (RAM) 사용량을 절반 가까이 줄이면서도, 계산 속도는 2.5 배나 빨라집니다.

4. 실험 결과: "빠르면서도 똑똑하다"

저자들은 이 방법을 GPT-2 와 Qwen3 같은 최신 AI 모델에 적용해 보았습니다.

  • 속도: 긴 문서를 처리할 때 기존 AI 보다 2.5 배 더 빠릅니다.
  • 정확도: 중요한 정보 (예: 긴 문서 속 숨겨진 단서 찾기) 를 찾는 능력은 기존 AI 와 거의 비슷하거나 오히려 더 좋습니다.
  • 비교: 기존에 "단어를 짧게 줄이는" 방법을 썼을 때는 AI 가 멍청해졌지만, 이 방법은 똑똑함을 유지하면서 속도만 높였습니다.

5. 결론: 왜 이것이 중요한가요?

이 연구는 **"AI 가 더 긴 문맥 (수십만 단어, 책 한 권 분량) 을 읽을 수 있는 길"**을 열었습니다.

  • 기존: 긴 글을 읽으려면 AI 를 더 많이 훈련시키거나, 컴퓨터를 더 많이 써야 했습니다.
  • 이제: **"핵심만 쏙쏙 골라보는 능력"**을 AI 에게 심어주면, 적은 비용으로도 긴 글을 완벽하게 이해할 수 있게 됩니다.

한 줄 요약:

"AI 에게 '모든 것을 다 기억하라'고 강요하지 말고, **'가장 중요한 핵심만 기억하라'**고 가르쳐주니, AI 는 더 빠르고 더 똑똑해졌습니다."

이 기술은 앞으로 AI 가 긴 소설, 긴 논문, 긴 대화 기록을 실시간으로 처리하고 이해하는 데 큰 역할을 할 것으로 기대됩니다.