Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

이 논문은 언어와 시각 토큰의 본질적 차이를 고려하여 조건부 및 프로토타입 라우팅을 통해 전문가 특화를 유도하는 'ProMoE' 프레임워크를 제안함으로써, 기존 확산 트랜스포머에 적용된 MoE 의 한계를 극복하고 ImageNet 에서 최첨단 성능을 달성했다고 요약할 수 있습니다.

Yujie Wei, Shiwei Zhang, Hangjie Yuan, Yujin Han, Zhekai Chen, Jiayu Wang, Difan Zou, Xihui Liu, Yingya Zhang, Yu Liu, Hongming Shan

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제점: "모든 일을 한 사람이 다 하려고 하면 지친다"

지금까지 이미지를 만드는 AI 는 '모든 전문가 (Expert)'가 매번 모든 일을 다 하는 방식을 썼습니다.

  • 비유: 마치 한 식당에서 **모든 요리사 (전문가)**가 손님이 "김치찌개"를 시키든 "스테이크"를 시키든, 모든 요리사가 동시에 모든 요리를 준비하는 것과 같습니다.
  • 결과: 식당이 커질수록 (모델이 커질수록) 요리사들이 너무 많아서 주방이 붐비고, 전기세 (컴퓨팅 비용) 가 너무 많이 나옵니다.

그래서 사람들은 '모자이크 (MoE, Mixture of Experts)' 방식을 도입했습니다.

  • 비유: "김치찌개"가 오면 김치찌개 전문 요리사만, "스테이크"가 오면 스테이크 전문 요리사만 나오게 하는 거죠. 나머지 요리사들은 쉬게 됩니다.
  • 문제: 언어 (텍스트) AI 에서는 이 방식이 잘 먹혔는데, 이미지 AI 에서는 잘 안 먹혔습니다. 왜일까요?

🧐 2. 왜 안 됐을까? "이미지는 텍스트와 다르다"

저자들은 두 가지 이유를 발견했습니다.

  1. 이미지는 너무 비슷하다 (공간적 중복성):
    • 비유: 텍스트는 "사과", "자동차"처럼 단어가 명확하게 다릅니다. 하지만 이미지는 픽셀들이 서로 너무 비슷합니다. (예: 하늘의 구름 조각들은 다 비슷해 보임). 그래서 AI 가 "어떤 요리사가 이 조각을 담당해야 할지" 헷갈려서, 모든 요리사가 똑같은 일을 하려고 합니다.
  2. 역할이 섞여 있다 (기능적 이질성):
    • 비유: 이미지 생성 AI 는 두 가지 모드로 작동합니다.
      • 조건부 (Conditional): "고양이 사진을 그려줘"라고 할 때.
      • 무조건부 (Unconditional): "아무거나 그려줘"라고 할 때.
    • 기존 방식은 이 두 가지를 구별하지 않고 똑같이 처리해서, 요리사들이 혼란을 겪었습니다.

💡 3. 해결책: ProMoE (두 단계로 나누는 똑똑한 지시자)

이 문제를 해결하기 위해 ProMoE라는 새로운 시스템을 만들었습니다. 핵심은 **"명확한 지시 (Explicit Routing Guidance)"**를 주는 것입니다.

1 단계: 역할 나누기 (Conditional Routing)

  • 비유: 식당 입구에 수위가 서 있습니다.
    • "고양이 그려줘"라고 하면? -> **고양이 전문 요리사 (Conditional Expert)**에게 보냅니다.
    • "아무거나 그려줘"라고 하면? -> **일반 요리사 (Unconditional Expert)**에게 보냅니다.
  • 효과: 요리사들이 자신의 역할 (고양이 vs 아무거나) 을 명확히 구분해서 집중할 수 있게 됩니다.

2 단계: 세부 배정 (Prototypical Routing)

  • 비유: 고양이 요리사들 사이에서도 "진한 갈색 고양이"를 그릴 사람과 "하얀 고양이"를 그릴 사람을 구분해야 합니다.
    • ProMoE 는 **학습된 '표본 (Prototype)'**이라는 가이드북을 사용합니다.
    • "이 그림 조각은 갈색 고양이와 비슷하네?" -> 갈색 고양이 전문 요리사에게 보냅니다.
    • "이건 하얀 고양이와 비슷하네?" -> 하얀 고양이 전문 요리사에게 보냅니다.
  • 효과: 비슷한 것끼리 같은 전문가에게 몰려가게 되어, 각 전문가가 매우 특화된 기술 (전문성) 을 갖게 됩니다.

3 단계: 팀워크 강화 (Routing Contrastive Loss)

  • 비유: 요리사들이 서로 너무 비슷해지지 않도록, 서로 다른 스타일을 유지하라고 독려하는 규칙을 만듭니다.
    • "너희는 서로 다른 맛을 내야 해!"라고 가르쳐서, 한 요리사가 모든 것을 다 하려는 것을 막고, 각자 고유한 영역을 지키게 합니다.

🚀 4. 결과: 왜 이것이 대단한가?

  • 더 적은 비용으로 더 좋은 결과: ProMoE 는 기존 방식보다 **적은 요리사 (활성화된 파라미터)**를 쓰면서도, **더 많은 요리사 (전체 파라미터)**를 쓰는 기존 최강 모델보다 더 멋진 그림을 그립니다.
  • 빠른 학습: 요리사들이 역할을 명확히 알기 때문에, 더 빨리 배우고 더 빨리 완성된 그림을 만들어냅니다.
  • 다양한 상황 대응: 텍스트로 "파란 코끼리"를 요청하든, "달 위의 에펠탑"을 요청하든, 모든 전문가들이 제 역할을 잘 해냅니다.

📝 한 줄 요약

"이미지 AI 에게 '누가 무엇을 할지' 명확하게 지시하고, 비슷한 것끼리 묶어주니, 적은 인원으로 더 전문적이고 멋진 그림을 그릴 수 있게 되었습니다."

이 기술은 앞으로 더 크고 멋진 AI 이미지를 만들 때 필수적인 도구가 될 것입니다.