MoEKD: Mixture-of-Experts Knowledge Distillation for Robust and High-Performing Compressed Code Models

Each language version is independently generated for its own context, not a direct translation.

🎓 비유: "한 명의 천재 선생님" vs "전문가들로 구성된 팀"

1. 문제 상황: 왜 기존 방식은 부족할까요?

지금까지 AI 모델을 작게 만드는 방법 (지식 증류, Knowledge Distillation) 은 "거대한 천재 선생님 (Teacher)" 한 명에게서 **"작은 학생 (Student)"**에게 지식을 전달하는 방식이었습니다.

상황: 천재 선생님이 학생에게 "이 코드는 해킹 위험이 있다"고 가르칩니다.
문제: 하지만 천재 선생님도 실수를 하거나, 해커가 이름을 살짝 바꿔서 (예: off 를 addr 로 변경) 속여도 학생은 바로 넘어갑니다.
원인: 학생은 한 명의 선생님에게서만 배웠기 때문에, 그 선생님이 놓친 세부적인 패턴이나 해커의 변칙적인 공격에 대한 방어법이 부족합니다. 마치 한 과목만 가르치는 선생님에게 모든 것을 배우려다 보니, 다른 관점에서의 지식이 부족해지는 것과 같습니다.

2. MoEKD 의 해결책: "전문가 팀 (Mixture of Experts)"

이 논문은 **"한 명의 선생님" 대신 "여러 명의 전문가 선생님 (Experts)"**을 모아서 학생을 가르치는 방식을 제안합니다.

전문가 팀 구성:
- A 선생님: 버퍼 오버플로우 (메모리 관련) 취약점만 전문으로 가르침.
- B 선생님: 인증 관련 취약점만 전문으로 가르침.
- C 선생님: 정보 유출 관련 취약점만 전문으로 가르침.
지도 선생님 (Router): 학생이 어떤 문제를 풀 때, 어떤 전문가 선생님의 도움이 가장 필요한지 판단해 주는 '지도 선생님'이 있습니다.
- "이 문제는 메모리 문제니까 A 선생님께 물어봐!"
- "이 문제는 인증 문제니까 B 선생님께 물어봐!"

3. 어떻게 작동하나요? (세 단계)

전문가 양성: 각 전문가 선생님들은 서로 다른 분야 (CWE 분류) 에 특화되어 심도 깊은 지식을 쌓습니다.
지식 통합: 학생이 문제를 풀 때, '지도 선생님'이 가장 적합한 전문가 2~3 명을 뽑아내어, 그들로부터 받은 지식을 하나로 합칩니다. (예: "A 선생님은 이렇게 말했고, B 선생님은 저렇게 말했는데, 둘을 합치면 정답은 이렇다!")
학생 학습: 학생은 이렇게 다양한 관점에서 통합된 풍부한 지식을 배워, 작아진 몸집에도 불구하고 훨씬 똑똑하고 튼튼해집니다.

🚀 MoEKD 가 가져온 놀라운 변화

이 방식을 적용했을 때 어떤 일이 일어났을까요?

성능 향상 (더 똑똑해짐):
- 기존 방식보다 최대 13% 더 정확하게 코드의 위험을 찾아냈습니다.
- 비유: 한 명의 선생님에게서 배운 학생보다, 여러 전문가의 조언을 종합한 학생이 시험 점수가 훨씬 높습니다.
보안 강화 (해커에게 덜 속임):
- 해커가 코드의 변수 이름을 살짝 바꿔서 속여도 (Adversarial Attack), MoEKD 학생은 최대 35.8% 더 잘 방어했습니다.
- 비유: 해커가 "이건 사과가 아니야, 배야!"라고 속여도, 여러 전문가의 지식을 가진 학생은 "아니, 이건 사과야!"라고 단호하게 맞서고, 해커의 변장술을 간파해냅니다.
초소형 모델도 가능:
- 모델을 원래 크기의 **절반 (약 50%)**으로 줄여도, 성능이 떨어지지 않고 오히려 기존 방식보다 더 잘 작동했습니다.
- 비유: 책상 위에 책이 반만 쌓여 있어도, 그 책들의 내용이 더 풍부하고 깊어서 오히려 더 잘 공부할 수 있게 된 것입니다.

💡 결론: 왜 이 기술이 중요한가요?

기존에는 AI 모델을 작게 만들면 성능이 떨어지거나 해커에게 쉽게 당하는 문제가 있었습니다. 하지만 MoEKD는 "여러 전문가의 지식을 한곳에 모으는 (Mixture of Experts)" 방식을 통해, 작고 가벼운 모델이면서도 거대한 모델 못지않은 똑똑함과 튼튼함을 가지게 했습니다.

이는 스마트폰이나 개인용 컴퓨터처럼 자원이 제한된 기기에서도, 해킹 위협에 강한 강력한 AI 코딩 도구를 사용할 수 있게 해주는 게임 체인저 기술입니다.

한 줄 요약:

"한 명의 천재에게서 배우는 것보다, 여러 분야의 전문가 팀이 함께 가르쳐 주는 것이 더 똑똑하고 해커에게 당하지 않는 AI 학생을 만든다!"

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

코드용 대규모 언어 모델 (LLM) 은 다양한 소프트웨어 분석 작업 (취약점 탐지, 코드 요약 등) 에서 뛰어난 성능을 보이지만, 높은 계산 비용, 느린 추론 속도, 큰 에너지 소비 등의 문제로 실제 배포에 한계가 있습니다. 이를 해결하기 위해 **지식 증류 (Knowledge Distillation, KD)**를 통해 대형 모델 (Teacher) 의 지식을 소형 모델 (Student) 로 전달하는 방식이 널리 사용되고 있습니다.

그러나 기존 연구들은 다음과 같은 근본적인 한계를 지적합니다:

단일 교사 모델의 한계: 단일 Teacher 모델로부터 지식을 증류받은 Student 모델은 종종 적대적 공격 (Adversarial Attacks) 에 대한 견고성 (Robustness) 이 떨어집니다.
지식 전달의 불충분함: 단일 Teacher 는 다양한 결정 경계, 특히 적대적 교란에 민감한 복잡한 결정 영역을 포괄적으로 표현하지 못합니다. 이는 Student 모델이 Teacher 의 높은 확신도 (Confidence) 와 안정적인 결정 경계를 온전히 학습하지 못하게 만듭니다.

2. 제안 방법론: MoEKD (Methodology)

저자들은 단일 Teacher 대신 여러 전문화된 전문가 (Experts) 모델로부터 지식을 집계하는 Mixture-of-Experts Knowledge Distillation (MoEKD) 프레임워크를 제안합니다. 이는 고등 교육에서 여러 과목의 전문 강사로부터 배우는 것이 한 명의 일반 강사로부터 배우는 것보다 더 포괄적이고 견고한 이해를 돕는다는 통찰에서 영감을 받았습니다.

MoEKD 는 크게 세 단계로 구성됩니다:

1) 전문가 및 라우터 학습 (Training Phase)

입력 공간 분할: 취약점 탐지 작업을 위해 CWE (Common Weakness Enumeration) 분류 체계를 기반으로 입력 공간을 분할합니다. BigVul 데이터셋의 88 가지 CWE 유형을 상위 수준으로 그룹화하여 10 개의 입력 하위 공간 (Subspace) 을 생성합니다.
전문가 (Expert) 학습: 각 하위 공간에 대해 별도의 전문가 모델을 학습시킵니다. 각 Expert 는 특정 취약점 카테고리를 식별하는 데 특화되도록 이진 분류 문제로 학습됩니다.
라우터 (Router) 학습: 입력 코드 조각이 어느 CWE 카테고리에 속하는지 예측하여 가장 관련성 높은 전문가를 선택하는 라우터 모델을 학습합니다. 클래스 불균형 문제를 해결하기 위해 Focal Loss를 사용합니다.

2) 전문가 집계 및 로그이트 융합 (Expert Aggregation & Logit Fusion)

동적 선택: 라우터는 각 입력에 대해 가장 관련성이 높은 상위 $k$ 개 전문가 (본 연구에서는 $k=2$ ) 를 선택합니다.
가중치 합산: 선택된 전문가들의 출력 (Logits) 을 라우터의 확률 분포에 기반하여 가중치 합산 (Weighted Sum) 하여 통합된 지식 (Aggregated Knowledge) 을 생성합니다. 이는 확률 정규화 이전의 Logit 단계에서 수행되어 각 전문가가 학습한 결정 경계의 미세한 구조를 보존합니다.

3) 지식 증류 (Knowledge Distillation)

학생 모델 학습: 통합된 전문가 지식 (Aggregated Logits) 을 Teacher 로 간주하여 소형 Student 모델 (약 3MB 크기) 을 학습시킵니다.
목적 함수: Student 모델의 출력 분포와 통합된 전문가 지식의 분포 간의 **KL 발산 (KL Divergence)**을 최소화하여, 하드 레이블 없이도 정교한 결정 경계를 학습하도록 유도합니다.

3. 주요 기여 (Key Contributions)

혁신성 (Novelty): 코드용 언어 모델의 지식 증류에 Mixture of Experts (MoE) 프레임워크를 최초로 적용한 연구입니다.
기술적 제안 (Technique): 단일 Teacher 에서 다수 전문가로의 학습 패러다임을 구현한 MoEKD를 제안했습니다. 이는 Compressor 및 AVATAR 와 같은 기존 최첨단 (SOTA) 증류 방법보다 예측 성능과 적대적 견고성을 동시에 향상시킵니다.
오픈 사이언스: 연구의 재현성을 위해 모든 코드와 실험 패키지를 오픈 소스로 공개했습니다.

4. 실험 결과 (Results)

취약점 탐지 작업 (BigVul 데이터셋) 에서 CodeBERT 와 GraphCodeBERT 를 기반으로 실험을 수행했습니다.

예측 성능 향상 (RQ1):
- MoEKD 로 증류된 Student 모델은 단일 Teacher 증류 모델 대비 최대 13.0% 의 예측 정확도 향상을 보였습니다.
- 예: CodeBERT 기반 Compressor Student 의 정확도가 0.54 에서 0.61 로 상승.
적대적 견고성 향상 (RQ2):
- ALERT, MHM, WIR-Random 등 3 가지 적대적 공격에 대해 MoEKD 모델이 **최대 35.8% 의 견고성 개선 (Attack Success Rate 감소)**을 달성했습니다.
- 통계적 검정 (Wilcoxon signed-rank test) 을 통해 이 개선이 통계적으로 유의미함 ( $p=0.006$ ) 이 확인되었습니다.
압축 효율성 (RQ3 - Ablation Study):
- 모델 크기를 기존 (3MB) 대비 약 절반 (1.6MB~2MB) 으로 줄인 초소형 모델에서도 MoEKD 는 단일 Teacher 기반 3MB 모델보다 더 높은 성능과 견고성을 유지했습니다. 이는 다수 전문가로부터의 지식 집계가 모델 크기가 작아져도 고품질 지식을 전달할 수 있음을 시사합니다.

5. 의의 및 결론 (Significance & Conclusion)

배포 효율성과 견고성의 균형: MoEKD 는 추론 비용 (Inference Cost) 을 증가시키지 않으면서 (Student 모델 크기는 동일), 오프라인 학습 단계에서 추가적인 계산 비용을 치러 더 강력하고 견고한 소형 모델을 생성합니다. 이는 실제 소프트웨어 개발 환경 (IDE 등) 에 배포 가능한 모델의 신뢰성을 높입니다.
단일 Teacher 의 한계 극복: 단일 Teacher 모델이 가진 지식의 한계를 다수의 전문화된 전문가를 통해 보완함으로써, 적대적 공격에 강한 코드 분석 모델 개발의 새로운 방향성을 제시했습니다.
미래 연구: 이 연구는 MoE 기반 지식 증류가 코드 모델 압축 분야에서 중요한 패러다임 전환이 될 수 있음을 보여주었으며, 향후 더 다양한 모델 아키텍처와 소프트웨어 공학 작업으로의 확장 가능성을 열었습니다.

요약하자면, MoEKD는 단일 교사 모델의 지식 전달 한계를 극복하기 위해 여러 전문가 모델을 통합하여 지식을 증류하는 새로운 프레임워크로, 압축된 코드 모델의 성능과 적대적 견고성을 동시에 획기적으로 향상시킨 획기적인 연구입니다.