SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

Each language version is independently generated for its own context, not a direct translation.

🍕 비유: "피자 가게의 비효율적인 주방"

지금까지의 AI 서비스 방식은 다음과 같았습니다.

1. 기존 방식 (문제점): "각자 전용 주방"

상황: 피자 가게에 '피자 전문', '파스타 전문', '초밥 전문' 세 개의 주방이 있다고 상상해 보세요.
문제:
- 피자 주문이 몰릴 때: 피자 주방은 바글바글하지만, 초밥 주방은 손님이 없어 요리사들이 멍하니 서 있습니다. (GPU 자원 낭비)
- 초밥 주문이 몰릴 때: 반대로 초밥 주방은 붐비는데 피자 주방은 비어 있습니다.
- 결과: 가게 전체의 효율이 떨어지고, 손님이 기다리는 시간 (지연 시간) 이 길어집니다. 특히 주문을 받아 재료를 다듬는 과정 (Prefill) 과 완성된 요리를 접시에 담는 과정 (Decode) 을 같은 주방에서 하면 서로 방해가 되어 더 느려집니다.

2. SUN 의 해결책: "공유 주방과 전문 요리사"
SUN 은 이 문제를 해결하기 위해 두 가지 혁신적인 아이디어를 제시합니다.

🧩 아이디어 1: "요리 과정 분리 & 공유" (Decomposition & Sharing)

분리: 요리를 두 단계로 나눕니다.
1. 재료 준비 (Prefill): 주문 내용을 보고 어떤 재료가 필요한지 파악하는 단계. (계산이 많음)
2. 접시 담기 (Decode): 재료를 받아서 실제로 요리를 완성하고 접시에 담는 단계. (메모리 사용이 많음)
공유:
- 재료 준비 (Prefill): 각 메뉴 (피자, 파스타, 초밥) 에 맞춰 전문 요리사가 따로 있습니다. (각 모델에 맞는 미세 조정)
- 접시 담기 (Decode): 이 단계는 모든 메뉴가 똑같은 방식으로 이루어집니다. 그래서 **한 명의 '마스터 셰프' (공유된 디코더)**가 모든 메뉴의 완성 작업을 담당하게 합니다.
효과: 주문이 어느 메뉴에 몰리든 상관없이, '마스터 셰프'들이 모두 함께 일하므로 주방이 비는 일이 사라집니다.

🚀 아이디어 2: "마스터 셰프의 훈련법" (Prefill-only Tuning)

질문: "다른 메뉴의 재료를 받아서 마스터 셰프가 잘 요리할 수 있을까요?"
해결: SUN 은 마스터 셰프 (공유된 모델) 는 절대 건드리지 않고 (Frozen) 그대로 둡니다. 대신, 각 메뉴의 **재료 준비 담당자 (Prefill 모듈)**만 특별히 훈련시킵니다.
비유: "마스터 셰프는 원래대로 두되, 재료 준비 담당자들이 '이 셰프가 좋아하는 방식으로 재료를 다듬어 달라'는 신호를 보내도록 훈련시킵니다."
결과: 마스터 셰프는 어떤 메뉴의 재료가 들어와도 완벽하게 요리할 수 있게 되며, 정확도도 떨어지지 않습니다.

⚡ 아이디어 3: "QSUN (양자화 버전)" - "더 빠른 마스터 셰프"

아이디어: 마스터 셰프의 두뇌 (모델) 를 조금 더 가볍게 만들어서 속도를 높입니다. (정밀도는 살짝 떨어질 수 있음)
해결: 마스터 셰프를 가볍게 만든 후, 재료 준비 담당자만 다시 훈련시켜서 가벼운 셰프도 완벽하게 요리할 수 있게 맞춥니다.
효과: 요리 속도가 45% 빨라지지만, 맛 (정확도) 은 거의 그대로 유지됩니다.

🌟 SUN 이 가져오는 변화 (핵심 요약)

비용 절감 (TCO 감소):
- 예전에는 메뉴별로 전용 주방 (GPU) 을 다 갖춰야 했지만, 이제는 공유 주방을 쓰면 필요한 주방 수가 절반 이상 줄어듭니다.
- 비유: 4 개의 주방을 2 개만 써도 같은 양의 피자를 더 빠르게 만들어냅니다.
부하 균형 (Skewed Workloads 해결):
- 어떤 메뉴가 갑자기 대박이 나도, 다른 메뉴의 주방이 비어있지 않고 모두 힘을 합쳐 처리합니다.
- 비유: 피자가 대박이 나도 초밥 주방이 비어있지 않고, 피자를 만드는 데 도움을 줍니다.
속도 향상:
- GPU 당 처리량이 최대 2 배까지 늘어납니다.
- 사용자에게는 "답이 나오는 속도"가 거의 그대로 유지되면서, 서버 비용은 확 줄어듭니다.

💡 결론

이 논문은 **"여러 개의 AI 모델을 따로따로 돌리는 비효율적인 방식"**을 버리고, **"공통된 부분을 공유하고 필요한 부분만 맞춤화하는 방식"**으로 바꾸어, 더 저렴하고 더 빠른 AI 서비스를 가능하게 합니다.

마치 공유 오피스처럼, 각 팀 (모델) 은 자신만의 책상 (Prefill) 을 쓰지만, 회의실 (Decode) 은 모두 공유해서 비는 공간 없이 효율적으로 운영하는 것과 같습니다.

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

🍕 비유: "피자 가게의 비효율적인 주방"

🧩 아이디어 1: "요리 과정 분리 & 공유" (Decomposition & Sharing)

🚀 아이디어 2: "마스터 셰프의 훈련법" (Prefill-only Tuning)

⚡ 아이디어 3: "QSUN (양자화 버전)" - "더 빠른 마스터 셰프"

🌟 SUN 이 가져오는 변화 (핵심 요약)

💡 결론

1. 문제 정의 (Problem Statement)

2. 제안 방법론 (Methodology: SUN)

핵심 아이디어: Prefill-Only Tuning 및 Frozen Decode 공유

QSUN (Quantized SUN): 양자화 최적화

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Experimental Results)

5. 의의 및 결론 (Significance)

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

🍕 비유: "피자 가게의 비효율적인 주방"

🧩 아이디어 1: "요리 과정 분리 & 공유" (Decomposition & Sharing)

🚀 아이디어 2: "마스터 셰프의 훈련법" (Prefill-only Tuning)

⚡ 아이디어 3: "QSUN (양자화 버전)" - "더 빠른 마스터 셰프"

🌟 SUN 이 가져오는 변화 (핵심 요약)

💡 결론

1. 문제 정의 (Problem Statement)

2. 제안 방법론 (Methodology: SUN)

핵심 아이디어: Prefill-Only Tuning 및 Frozen Decode 공유

QSUN (Quantized SUN): 양자화 최적화

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Experimental Results)

5. 의의 및 결론 (Significance)

유사한 논문

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems