Each language version is independently generated for its own context, not a direct translation.
1. 배경: AI 가 긴 이야기를 읽을 때 겪는 문제
상상해 보세요. AI 는 긴 소설이나 긴 대화 기록을 읽을 때, **'메모리 (상태)'**를 유지하며 문장을 하나씩 처리합니다.
- 기존 방식 (Attention): 모든 문장을 동시에 비교하며 기억합니다. 문장이 길어질수록 기억해야 할 것이 기하급수적으로 늘어나서 속도가 매우 느려집니다. (예: 100 페이지 책을 읽을 때, 1 페이지부터 100 페이지까지 모두 한 번에 비교해야 함)
- 새로운 방식 (SSM/Mamba): 문장을 하나씩 읽어가며 핵심 정보만 간추려서 기억합니다. 문장이 길어져도 속도는 일정하게 유지됩니다. (예: 책을 읽으며 중요한 내용만 요약본에 적어두고 넘어감)
하지만 여기서 새로운 문제가 생깁니다. AI 의 지능을 더 높이기 위해 '전문가 (Expert)'를 많이 고용하면 (파라미터를 늘리면), 이 '요약' 작업을 전문가 수만큼 반복해야 해서 비용이 폭증합니다.
2. 해결책: 두 가지 설계도 비교하기
논문은 전문가를 활용하는 두 가지 방법을 제시합니다.
방법 A: 분리된 전문가들 (MoE of separated SSMs)
- 비유: 10 명의 전문가가 각각 별도의 방에서 책을 읽고, 각자 별도의 요약본을 만들어냅니다.
- 문제: 책을 10 번 읽어야 하므로 시간이 10 배 걸립니다. 메모리도 10 배 필요합니다.
- 결과: 지능은 높아지지만, 속도가 너무 느려져서 실용적이지 않습니다.
방법 B: 파라미터 공간의 전문가들 (Swimba 의 방식)
- 비유: 단 한 명의 독서 클럽 리더가 있습니다. 하지만 이 리더는 10 명의 전문가에게서 **'요약 팁'**을 받습니다.
- 리더는 책을 한 번만 읽습니다.
- 하지만 읽는 동안, 현재 문맥에 따라 가장 적합한 전문가의 '팁'을 섞어서 사용합니다.
- 예를 들어, 과학 문장이 나오면 '과학 전문가'의 팁을, 역사 문장이 나오면 '역사 전문가'의 팁을 섞어 요약합니다.
- 결과: 책을 한 번만 읽으므로 속도는 그대로 유지되지만, 10 명의 전문가 지능을 모두 활용할 수 있습니다.
3. Swimba(스위imba) 의 핵심 아이디어
이 논문에서 제안한 Swimba는 바로 이 **'방법 B'**를 구현한 것입니다.
- 핵심 원리: 여러 전문가가 각자 다른 '가상 상태 (가상의 메모리)'를 만드는 게 아니라, 하나의 공유된 메모리를 유지하면서, 전문가들이 만들어낸 '입력 신호'와 '출력 신호'만 섞어서 사용합니다.
- 이점:
- 비용 절감: 책을 여러 번 읽지 않아도 되므로 계산 비용 (FLOPs) 이 거의 변하지 않습니다.
- 성능 향상: 다양한 전문가의 지식을 섞어 쓰므로, 기존 모델보다 더 똑똑해집니다.
- 안정성: 수학적으로도 이 방식이 안정적임을 증명했습니다. (메모리가 폭발하지 않음)
4. 실험 결과: 실제로 효과가 있을까?
저자들은 80 억 개의 파라미터를 가진 기존 모델 (Nemotron-H-8B) 을 바탕으로, 140 억 개의 파라미터를 가진 Swimba 모델을 만들었습니다. (전문가 수는 늘렸지만, 한 번에 활성화되는 수는 1 개로 유지)
- 성능: 다양한 시험 문제 (수학, 과학, 논리 등) 에서 기존 모델보다 약간 더 좋은 점수를 받았습니다.
- 속도: 이론상 계산량은 거의 같았지만, 실제로는 전문가를 고르는 과정 (라우팅) 때문에 속도가 아주 조금 (약 10% 내외) 느려졌습니다.
- 결론: "조금만 더 느려지더라도, 훨씬 더 똑똑한 AI 를 만드는 것이 가능하다"는 것을 보여줬습니다.
5. 한 줄 요약
"Swimba 는 AI 가 긴 글을 읽을 때, 10 명의 전문가를 따로따로 고용해서 10 번 읽게 하는 게 아니라, 한 명의 리더가 10 명의 전문가 지식을 섞어서 한 번만 읽게 함으로써, 속도는 유지하면서 지능은 대폭 향상시킨 혁신적인 방법입니다."
이 기술은 앞으로 더 길고 복잡한 문서를 처리해야 하는 AI 들이, 너무 비싸지 않으면서도 똑똑해질 수 있는 길을 열어줄 것으로 기대됩니다.