MiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Zhi Zheng, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

게시일 2026-03-03

📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📚 MiniCPM-SALA: 거대한 도서관을 한 번에 읽는 '초고속 스마일'

안녕하세요! 오늘 소개해 드릴 논문은 MiniCPM-SALA라는 이름의 새로운 인공지능 모델에 대한 것입니다. 이 모델은 "긴 글을 읽을 때 머리가 터질 것 같은" 기존 AI 의 문제를 해결하기 위해 탄생했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: "책 한 권 읽으면 머리가 터지는 AI"

기존의 AI(트랜스포머) 는 글을 읽을 때 모든 단어를 동시에 비교하는 방식을 사용합니다.

비유: 100 페이지짜리 책을 읽을 때, 1 페이지를 읽을 때마다 앞으로 읽은 1~99 페이지를 모두 다시 꺼내서 비교하는 상상을 해보세요.
문제: 책이 100 페이지일 때는 괜찮지만, 100 만 페이지 (100 만 토큰) 가 되면? 그 비교 횟수가 어마어마해져서 시간도 너무 오래 걸리고, 메모리 (RAM) 도 바닥이 납니다. 마치 100 만 권의 책을 한 번에 펼쳐서 읽으려다 책상 위에 책이 쌓여 방이 꽉 차버리는 것과 같습니다.

2. 해결책: "스마트한 두 가지 독서법"을 섞다

MiniCPM-SALA 는 이 문제를 해결하기 위해 두 가지 독서 전략을 섞어서 사용합니다.

전략 A: 스파스 어텐션 (InfLLM-V2) - "중요한 부분만 집중"
- 비유: 긴 책에서 핵심 키워드나 중요한 장만 빠르게 찾아서 정독하는 방법입니다. 모든 페이지를 다 볼 필요 없이, "여기서 중요한 게 뭐지?" 하고 눈만 빠르게 훑어갑니다.
- 장점: 정확한 기억력을 유지하면서도 불필요한 비교를 줄입니다.
전략 B: 리니어 어텐션 (Lightning Attention) - "흐름만 기억하기"
- 비유: 책의 전체적인 줄거리나 흐름만 간략하게 요약해서 기억하는 방법입니다. 세부적인 단어 하나하나까지 다 기억할 필요는 없지만, "이게 무슨 이야기였지?" 하는 큰 그림은 잊지 않습니다.
- 장점: 메모리를 거의 쓰지 않고 아주 빠르게 읽을 수 있습니다.

🌟 MiniCPM-SALA 의 비법:
이 모델은 **25% 는 '정독 (전략 A)'**을 하고, **75% 는 '흐름 기억 (전략 B)'**을 합니다.

1:3 비율의 조화: 중요한 건 정확히 기억하고, 나머지는 가볍게 넘기면서 속도와 정확도를 동시에 잡은 것입니다. 마치 스마트한 도서관 사서가 중요한 책은 정밀하게 분류하고, 나머지는 빠르게 정리하는 것과 같습니다.

3. 훈련 방법: "새로 배우지 않고, 기존 실력을 업그레이드"

보통 새로운 AI 를 만들려면 처음부터 0 부터 가르치는데, 시간이 너무 오래 걸립니다.

비유: 이미 프로 축구 선수가 된 사람에게 "새로운 전술"만 가르치는 것과 같습니다.
MiniCPM-SALA 의 방식: 이미 잘하는 AI(MiniCPM-4.0) 를 가져와서, 두뇌 구조만 살짝 바꿔서 새로운 전략을 가르쳤습니다.
효과: 처음부터 가르치는 것보다 비용을 75%나 아끼면서도, 기존 실력은 그대로 유지하면서 긴 글을 읽는 능력을 얻었습니다.

4. 놀라운 성과: "100 만 페이지도 한 번에!"

이 모델은 기존 AI 들이 겪던 한계를 완전히 깨뜨렸습니다.

속도: 긴 글을 읽을 때, 기존 모델보다 최대 3.5 배 더 빠릅니다. (256K 토큰 기준)
메모리: 일반 가정용 그래픽카드 (RTX 5090) 나 엔터프라이즈용 카드 (A6000) 에서도 **100 만 토큰 (약 100 만 단어)**짜리 긴 문서를 처리할 수 있습니다.
- 비유: 기존 AI 는 100 페이지만 읽어도 책상이 꽉 차서 더 이상 읽을 수 없었지만, MiniCPM-SALA 는 100 만 페이지짜리 도서관 전체를 한 번에 들여다봐도 책상이 꽉 차지 않습니다.
정확도: 긴 글을 읽어도 내용이 망가지지 않고, 수학 문제나 코딩 능력도 기존 AI 들과 비슷하게 잘합니다.

5. 결론: "누구나 쓸 수 있는 초장문 AI"

MiniCPM-SALA 는 **"긴 글을 읽을 때 AI 가 느려지거나 메모리 부족으로 멈추는 문제"**를 해결했습니다.

누구에게 좋은가요? 긴 기술 매뉴얼을 분석해야 하는 엔지니어, 수만 줄의 코드를 한 번에 봐야 하는 개발자, 혹은 긴 보고서나 소설을 분석해야 하는 연구자 모두에게 유용합니다.
핵심 메시지: 더 비싼 컴퓨터를 살 필요 없이, 똑똑한 구조 설계만으로도 AI 가 훨씬 더 길고 복잡한 글을 읽을 수 있게 되었습니다.

이제 AI 는 거대한 도서관을 한 번에 훑어보며, 중요한 부분만 정확히 찾아내는 초고속 스마일이 된 것입니다! 🚀📖

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 이 초장문맥 (Ultra-long Context) 처리로 확장되면서 기존 Transformer 아키텍처의 한계가 명확히 드러났습니다.

계산 복잡도 병목: 표준 어텐션 메커니즘은 시퀀스 길이 ( $N$ ) 에 대해 $O(N^2)$ 의 계산 복잡도를 가지며, 수백만 토큰 규모의 문맥에서는 추론 지연 시간이 급격히 증가합니다.
메모리 병목 (KV-Cache): 자동회귀 생성 과정에서 모든 역사적 토큰의 키 (Key) 와 값 (Value) 상태를 저장해야 하므로, 8B(80 억) 파라미터 모델조차 수백만 토큰을 처리할 때 수십~수백 GB 의 메모리가 필요합니다. 이는 단일 GPU 환경에서 OOM(Out-of-Memory) 오류를 유발합니다.
기존 해결책의 trade-off:
- 희소 어텐션 (Sparse Attention): 계산 효율성을 높이지만, 여전히 전체 KV-Cache 를 유지해야 하므로 메모리 효율성이 낮습니다.
- 선형 어텐션 (Linear Attention): $O(N)$ 의 메모리 효율성을 제공하지만, 정보의 손실적 압축으로 인해 장기 의존성 모델링 성능이 저하됩니다.

2. 방법론 (Methodology)

MiniCPM-SALA 는 **희소 어텐션 (Sparse Attention)**과 **선형 어텐션 (Linear Attention)**을 혼합한 하이브리드 아키텍처를 제안하여 위 문제들을 해결합니다.

가. 하이브리드 아키텍처 설계

혼합 비율: 레이어 선택 알고리즘을 통해 25% 는 InfLLM-V2(희소 어텐션), **75% 는 Lightning Attention(선형 어텐션)**으로 구성합니다 (1:3 비율).
- InfLLM-V2: 높은 충실도 (High-fidelity) 를 가진 장문맥 모델링을 담당하며, 추가 파라미터 없이 밀집/희소 모드 전환이 가능합니다.
- Lightning Attention: 전역적인 계산 효율성 ( $O(N)$ ) 을 제공하며, KV-Cache 메모리 사용을 최소화합니다.
위치 인코딩 (HyPE, Hybrid Positional Encoding):
- 선형 어텐션 레이어: RoPE(Rotary Positional Embedding) 를 적용하여 토큰의 상대적 순서를 유지합니다.
- 희소 어텐션 레이어: RoPE 를 제거하여 장거리 정보의 감쇠를 방지하고 정확한 회상을 가능하게 합니다.
기타 개선 사항: QK-Normalization(활성화 스파이크 방지), 출력 게이트 (Output Gates, 어텐션 싱크 현상 완화) 를 도입하여 학습 안정성을 높였습니다.

나. 학습 전략: Transformer-to-Hybrid 전환

비용 효율적인 continual training: 처음부터 학습 (Training from scratch) 하는 대신, 사전 학습된 Transformer 모델 (MiniCPM-4.0) 을 하이브리드 모델로 변환하는 방식을 채택했습니다.
5 단계 학습 파이프라인:
1. 아키텍처 변환 (HALO): Softmax 어텐션을 선형 어텐션으로 변환 (레이어 선택 알고리즘 적용).
2. Continual Stable-Training: 변환된 레이어와 기존 구성 요소 간의 조율 (4K 시퀀스).
3. Short-Decay Training: 고품질 데이터로 일반 능력 강화 (4K 시퀀스).
4. Long-Decay Training: 문맥 길이를 32K → 160K → 520K 로 점진적 확장 (희소 어텐션 활성화).
5. Supervised Fine-Tuning (SFT): 추론 및 태스크 수행 능력 강화 (64K → 140K 시퀀스).
효율성: 이 방식은 처음부터 학습하는 것보다 약 75% 적은 학습 비용 (토큰 수 기준 약 25%) 으로 동급 성능을 달성합니다.

3. 주요 기여 (Key Contributions)

성능과 효율성의 균형: 25% 희소 어텐션과 75% 선형 어텐션을 결합하여, 국소적 세부 사항에는 희소 어텐션의 정밀도를, 광범위한 문맥에는 선형 어텐션의 효율성을 동시에 확보했습니다.
Transformer-to-Hybrid 패러다임: 사전 학습된 가중치를 재활용하여 하이브리드 모델로 전환하는 전략을 입증하여, 하이브리드 모델 개발의 진입 장벽과 비용을 획기적으로 낮췄습니다.
HyPE (Hybrid Positional Encoding): 짧은 문맥과 긴 문맥 모두에서 성능을 조율하는 새로운 위치 인코딩 방식을 도입했습니다.
초장문맥 지원 및 확장성: 단일 GPU 에서 100 만 (1M) 토큰까지의 문맥을 지원하며, 기존 8B 모델이 메모리 부족으로 실패하는 구간에서도 작동합니다.

4. 실험 결과 (Results)

일반 능력 (General Capabilities):
- Qwen3-8B, Falcon-H1R 등 동급 모델들과 비교하여 지식 (CMMLU, MMLU-Pro), 코딩 (HumanEval, MBPP), 수학 (AIME) 벤치마크에서 비슷하거나 더 우수한 성능을 보였습니다. (평균 점수 76.53)
- 장문맥 메커니즘 도입으로 인한 일반 성능 저하가 없음을 입증했습니다.
장문맥 성능 (Long-Context Performance):
- RULER 벤치마크: 128K 문맥에서 89.37 점으로, 다른 모델들이 급격히 성능이 떨어지는 구간에서도 높은 정확도를 유지했습니다.
- NoLiMa 벤치마크: 128K 문맥에서 23.86 점으로 타 모델 대비 월등히 높은 성능을 기록했습니다.
- 초장문맥 확장 (Ultra-long Extrapolation): 520K 로 학습되었음에도 2048K(2M) 토큰까지 성능 저하 없이 확장되었습니다. 100 만 토큰 (1M) 문맥에서 80B 파라미터 모델 (Qwen3-Next-80B) 보다 높은 점수 (86.3 vs 80.3) 를 기록했습니다.
추론 속도와 메모리 효율성:
- NVIDIA A6000D: 256K 토큰에서 Qwen3-8B 대비 최대 3.5 배 빠른 추론 속도를 달성했습니다.
- NVIDIA RTX 5090 (소비자용 GPU): Qwen3-8B 는 128K(비양자화) 에서 OOM 오류가 발생했으나, MiniCPM-SALA 는 1024K(1M) 토큰까지 성공적으로 추론을 수행했습니다.

5. 의의 (Significance)

MiniCPM-SALA 는 초장문맥 처리를 위한 새로운 표준을 제시합니다.

접근성: 고사양 클라우드 GPU 가 아닌 소비자급 GPU(예: RTX 5090) 에서도 100 만 토큰 규모의 문맥을 처리할 수 있게 하여, 엣지 디바이스에서의 정보 밀집형 애플리케이션 (전체 기술 매뉴얼 분석, 대규모 코드베이스 이해 등) 을 현실화했습니다.
경제성: 모델 개발 비용을 75% 절감하면서도 하이브리드 아키텍처의 이점을 극대화하는 효율적인 학습 프레임워크를 제시했습니다.
확장성: 기존 Transformer 의 계산 및 메모리 병목을 해결하여, 차세대 LLM 이 수백만 토큰 단위의 문맥을 자연스럽게 처리할 수 있는 길을 열었습니다.

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

📚 MiniCPM-SALA: 거대한 도서관을 한 번에 읽는 '초고속 스마일'

1. 문제: "책 한 권 읽으면 머리가 터지는 AI"

2. 해결책: "스마트한 두 가지 독서법"을 섞다

3. 훈련 방법: "새로 배우지 않고, 기존 실력을 업그레이드"

4. 놀라운 성과: "100 만 페이지도 한 번에!"

5. 결론: "누구나 쓸 수 있는 초장문 AI"

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

가. 하이브리드 아키텍처 설계

나. 학습 전략: Transformer-to-Hybrid 전환

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 (Significance)

유사한 논문

When Prompt Optimization Becomes Jailbreaking: Adaptive Red-Teaming of Large Language Models

DuCCAE: A Hybrid Engine for Immersive Conversation via Collaboration, Augmentation, and Evolution

Spelling Correction in Healthcare Query-Answer Systems: Methods, Retrieval Impact, and Empirical Evaluation

Can Structural Cues Save LLMs? Evaluating Language Models in Massive Document Streams

Enhancing Legal LLMs through Metadata-Enriched RAG Pipelines and Direct Preference Optimization