MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

이 논문은 희소 어텐션과 선형 어텐션을 혼합한 9B 파라미터 모델 'MiniCPM-SALA'를 제안하여, 기존 풀-어텐션 모델 대비 75% 낮은 비용으로 학습하고 256K 토큰에서 3.5 배 빠른 추론 속도와 1M 토큰까지의超长 컨텍스트를 효율적으로 처리할 수 있음을 보여줍니다.

MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Zhi Zheng, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📚 MiniCPM-SALA: 거대한 도서관을 한 번에 읽는 '초고속 스마일'

안녕하세요! 오늘 소개해 드릴 논문은 MiniCPM-SALA라는 이름의 새로운 인공지능 모델에 대한 것입니다. 이 모델은 "긴 글을 읽을 때 머리가 터질 것 같은" 기존 AI 의 문제를 해결하기 위해 탄생했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "책 한 권 읽으면 머리가 터지는 AI"

기존의 AI(트랜스포머) 는 글을 읽을 때 모든 단어를 동시에 비교하는 방식을 사용합니다.

  • 비유: 100 페이지짜리 책을 읽을 때, 1 페이지를 읽을 때마다 앞으로 읽은 1~99 페이지를 모두 다시 꺼내서 비교하는 상상을 해보세요.
  • 문제: 책이 100 페이지일 때는 괜찮지만, 100 만 페이지 (100 만 토큰) 가 되면? 그 비교 횟수가 어마어마해져서 시간도 너무 오래 걸리고, 메모리 (RAM) 도 바닥이 납니다. 마치 100 만 권의 책을 한 번에 펼쳐서 읽으려다 책상 위에 책이 쌓여 방이 꽉 차버리는 것과 같습니다.

2. 해결책: "스마트한 두 가지 독서법"을 섞다

MiniCPM-SALA 는 이 문제를 해결하기 위해 두 가지 독서 전략을 섞어서 사용합니다.

  • 전략 A: 스파스 어텐션 (InfLLM-V2) - "중요한 부분만 집중"
    • 비유: 긴 책에서 핵심 키워드나 중요한 장만 빠르게 찾아서 정독하는 방법입니다. 모든 페이지를 다 볼 필요 없이, "여기서 중요한 게 뭐지?" 하고 눈만 빠르게 훑어갑니다.
    • 장점: 정확한 기억력을 유지하면서도 불필요한 비교를 줄입니다.
  • 전략 B: 리니어 어텐션 (Lightning Attention) - "흐름만 기억하기"
    • 비유: 책의 전체적인 줄거리나 흐름만 간략하게 요약해서 기억하는 방법입니다. 세부적인 단어 하나하나까지 다 기억할 필요는 없지만, "이게 무슨 이야기였지?" 하는 큰 그림은 잊지 않습니다.
    • 장점: 메모리를 거의 쓰지 않고 아주 빠르게 읽을 수 있습니다.

🌟 MiniCPM-SALA 의 비법:
이 모델은 **25% 는 '정독 (전략 A)'**을 하고, **75% 는 '흐름 기억 (전략 B)'**을 합니다.

  • 1:3 비율의 조화: 중요한 건 정확히 기억하고, 나머지는 가볍게 넘기면서 속도와 정확도를 동시에 잡은 것입니다. 마치 스마트한 도서관 사서가 중요한 책은 정밀하게 분류하고, 나머지는 빠르게 정리하는 것과 같습니다.

3. 훈련 방법: "새로 배우지 않고, 기존 실력을 업그레이드"

보통 새로운 AI 를 만들려면 처음부터 0 부터 가르치는데, 시간이 너무 오래 걸립니다.

  • 비유: 이미 프로 축구 선수가 된 사람에게 "새로운 전술"만 가르치는 것과 같습니다.
  • MiniCPM-SALA 의 방식: 이미 잘하는 AI(MiniCPM-4.0) 를 가져와서, 두뇌 구조만 살짝 바꿔서 새로운 전략을 가르쳤습니다.
  • 효과: 처음부터 가르치는 것보다 비용을 75%나 아끼면서도, 기존 실력은 그대로 유지하면서 긴 글을 읽는 능력을 얻었습니다.

4. 놀라운 성과: "100 만 페이지도 한 번에!"

이 모델은 기존 AI 들이 겪던 한계를 완전히 깨뜨렸습니다.

  • 속도: 긴 글을 읽을 때, 기존 모델보다 최대 3.5 배 더 빠릅니다. (256K 토큰 기준)
  • 메모리: 일반 가정용 그래픽카드 (RTX 5090) 나 엔터프라이즈용 카드 (A6000) 에서도 **100 만 토큰 (약 100 만 단어)**짜리 긴 문서를 처리할 수 있습니다.
    • 비유: 기존 AI 는 100 페이지만 읽어도 책상이 꽉 차서 더 이상 읽을 수 없었지만, MiniCPM-SALA 는 100 만 페이지짜리 도서관 전체를 한 번에 들여다봐도 책상이 꽉 차지 않습니다.
  • 정확도: 긴 글을 읽어도 내용이 망가지지 않고, 수학 문제나 코딩 능력도 기존 AI 들과 비슷하게 잘합니다.

5. 결론: "누구나 쓸 수 있는 초장문 AI"

MiniCPM-SALA 는 **"긴 글을 읽을 때 AI 가 느려지거나 메모리 부족으로 멈추는 문제"**를 해결했습니다.

  • 누구에게 좋은가요? 긴 기술 매뉴얼을 분석해야 하는 엔지니어, 수만 줄의 코드를 한 번에 봐야 하는 개발자, 혹은 긴 보고서나 소설을 분석해야 하는 연구자 모두에게 유용합니다.
  • 핵심 메시지: 더 비싼 컴퓨터를 살 필요 없이, 똑똑한 구조 설계만으로도 AI 가 훨씬 더 길고 복잡한 글을 읽을 수 있게 되었습니다.

이제 AI 는 거대한 도서관을 한 번에 훑어보며, 중요한 부분만 정확히 찾아내는 초고속 스마일이 된 것입니다! 🚀📖