Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

이 논문은 토큰이 각 전문가의 임계값을 독립적으로 초과하는지 확인하여 동적 계산 할당과 보조 손실 없이 부하 균형을 달성하는 '전문가 임계값 (Expert Threshold)' 라우팅을 제안하며, 이를 통해 TC-MoE 대비 더 낮은 손실과 적은 토큰으로 동등한 성능을 달성하는 것을 보여줍니다.

Hanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏢 비유: 거대한 '지식 회사'와 '새로운 배정 시스템'

생각해 보세요. 거대한 AI 회사가 있다고 칩시다. 이 회사에는 **수백 명의 '전문가 (Expert)'**들이 있습니다. 어떤 전문가는 수학 문제를 잘 풀고, 어떤 전문가는 코딩을 잘하며, 또 어떤 전문가는 문법 교정을 잘합니다.

AI 가 문장을 하나 만들 때마다 (예: "안녕하세요"), 이 회사에서는 그 문장의 각 단어 (토큰) 에 맞는 전문가를 찾아 일을 시켜야 합니다.

1. 기존 방식의 문제점 (TC-MoE 와 EC-MoE)

기존에는 두 가지 방식이 있었는데, 둘 다 단점이 있었습니다.

  • 방식 A: "정해진 인원 뽑기" (Token Choice)

    • 비유: 모든 단어가 "나는 3 명만 뽑아!"라고 외칩니다. 각 단어는 무조건 점수가 가장 높은 전문가 3 명을 뽑습니다.
    • 문제: 어떤 날은 모든 단어가 똑같은 '수학 전문가'만 뽑아서 그 분은 과로로 쓰러지고, '코딩 전문가'는 하루 종일 놀게 됩니다. (부하 불균형)
    • 해결책: 회사가 "너희는 고르게 분배해!"라고 강제로 지시하거나, 불균형하면 벌금을 매기는 복잡한 규칙을 만들어야 했습니다.
  • 방식 B: "전문가가 직접 고르기" (Expert Choice)

    • 비유: 이번에는 전문가들이 "나에게 가장 잘 맞는 단어 100 개만 고르겠다!"라고 합니다.
    • 문제: 이 방식은 아주 효율적이지만, 시간 여행이 필요합니다. 전문가가 "내가 고를 단어 100 개를 정하려면, 미래에 나올 단어들도 다 봐야 해!"라고 말합니다.
    • 치명적 단점: AI 가 글을 쓸 때는 미래의 단어가 아직 존재하지 않습니다. ( autoregressive, 자기주도적 생성) 그래서 이 방식은 글을 실시간으로 쓰는 데는 쓸 수 없었습니다.

2. 이 논문이 제안한 해결책: "Expert Threshold (ET) Routing"

이 논문은 **"미래를 보지 않아도, 전문가가 스스로 적정선을 유지하게 하는 방법"**을 찾아냈습니다.

  • 핵심 아이디어: "평균 점수 기준선 (Threshold)"
    • 비유: 각 전문가에게 **"오늘 내가 일할 수 있는 기준선"**을 정해줍니다. 이 기준선은 과거의 모든 데이터를 바탕으로 계산된 **'이동 평균 (EMA)'**입니다.
    • 작동 원리:
      1. 새로운 단어가 들어오면, 그 단어의 점수가 전문가의 기준선보다 높은지 확인합니다.
      2. 높다면: "일해!" (할당)
      3. 낮다면: "오늘은 쉬어." (할당 안 함)
    • 장점:
      • 미래 불필요: 현재 단어 하나만 보면 되므로, 실시간으로 글을 쓸 수 있습니다. (인과성 유지)
      • 자동 균형: 기준선은 과거 전체 데이터의 평균이므로, 장기적으로 보면 모든 전문가가 고르게 일을 하게 됩니다. 별도의 벌금이나 복잡한 규칙이 필요 없습니다.
      • 유연한 자원: 어려운 단어는 여러 전문가가, 쉬운 단어는 적은 전문가가 처리할 수 있어 계산 자원을 아낄 수 있습니다.

🚀 이 방법이 왜 대단한가요?

  1. 더 똑똑해졌습니다: 실험 결과, 이 방법을 쓰면 기존 방식보다 오류가 0.067 만큼 줄어듭니다. 같은 실력을 내는 데 필요한 학습 데이터 양을 1.6 배나 줄일 수 있다는 뜻입니다. (더 빠르고 저렴하게 학습 가능)
  2. 실시간 사용 가능: 미래의 단어를 알 수 없는 상황 (실시간 채팅, 글쓰기) 에서도 최고의 효율을 발휘합니다.
  3. 균형 잡힌 업무: 어떤 전문가가 과부하 걸리거나, 어떤 전문가가 놀지 않도록 자연스럽게 조절됩니다.

📝 한 줄 요약

"AI 회사에서 각 전문가에게 '과거 평균'을 기준으로 스스로 일할지 말지 결정하게 했더니, 미래의 단어를 알 필요도 없이, 부하도 고르게 분배되고 더 똑똑해졌습니다."

이 기술은 앞으로 우리가 사용하는 AI 가 더 빠르고, 저렴하며, 똑똑하게 작동하는 데 큰 역할을 할 것으로 기대됩니다.