xLLM Technical Report

이 논문은 다양한 AI 가속기를 위한 고성능 엔터프라이즈급 LLM 추론을 위해 지능형 스케줄링, PD/EPD 분해, KV 캐시 관리 및 엔진 수준의 최적화를 결합한 새로운 xLLM 프레임워크를 제안하고, 이를 통해 기존 솔루션 대비 획기적인 처리량과 자원 효율성을 입증합니다.

Tongxuan Liu, Tao Peng, Peijun Yang, Xiaoyang Zhao, Xiusheng Lu, Weizhe Huang, Zirui Liu, Xiaoyu Chen, Zhiwei Liang, Jun Xiong, Donghe Jin, Minchao Zhang, Jinrong Guo, Yingxu Deng, Xu Zhang, Xianzhe Dong, Siqi Wang, Siyu Wu, Yu Wu, Zihan Tang, Yuting Zeng, Yanshu Wang, Jinguang Liu, Meng Kang, Menxin Li, Yunlong Wang, Yiming Liu, Xiaolong Ma, Yifan Wang, Yichen Zhang, Jinrun Yin, Keyang Zheng, Jiawei Yin, Jun Zhang, Ziyue Wang, Xiaobo Lin, Liangyu Liu, Liwei Lan, Yang Liu, Chunhua Peng, Han Liu, Songcheng Ren, Xuezhu Wang, Yunheng Shen, Yi Wang, Guyue Liu, Yitao Hu, Hui Chen, Tong Yang, Hailong Yang, Jing Li, Guiguang Ding, Ke Zhang

게시일 2026-03-04
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

xLLM: AI 의 속도를 높이는 '초고속 도로'와 '지능형 교통관제센터'

이 기술 보고서는 xLLM이라는 새로운 시스템을 소개합니다. 쉽게 말해, 거대한 인공지능 (AI) 이 말을 할 때 (생성할 때) 걸리는 시간을 줄이고, 더 많은 사람을 한 번에 처리할 수 있게 해주는 초고성능 엔진입니다.

기존의 AI 서비스들은 비싼 컴퓨터 (하드웨어) 를 많이 써도 효율이 낮거나, 사람이 몰리면 서비스가 느려지는 문제가 있었습니다. xLLM 은 이 문제를 해결하기 위해 **서비스 관리 (Service)**와 **실제 계산 엔진 (Engine)**을 분리하여 각각을 최적화했습니다.

창의적인 비유로 설명해 드리겠습니다.


1. 전체 구조: '지능형 교통관제센터'와 '초고속 도로'

xLLM 은 두 가지 핵심 부품으로 이루어져 있습니다.

  • xLLM-Service (지능형 교통관제센터):

    • 역할: 수많은 차량 (사용자 요청) 이 어디로 가야 할지, 어떤 차선으로 들어갈지 지시하는 관제탑입니다.
    • 특징:
      • 혼합 교통 통제: 급하게 가야 하는 '구급차 (온라인 채팅)'와 천천히 가도 되는 '화물차 (오프라인 문서 분석)'를 같은 도로에 섞어 운영하되, 구급차가 먼저 지나가도록 지시합니다.
      • 동적 차선 변경: 차가 많을 때는 '가속 차선 (Prefill)'을 늘리고, 차가 적을 때는 '정속 주행 차선 (Decode)'을 늘려 도로를 비워둡니다.
      • 멀티미디어 처리: 사진과 글을 동시에 처리해야 할 때, 사진 분석 담당과 글쓰기 담당을 따로 배정해 병목 현상을 없앱니다.
  • xLLM-Engine (초고속 도로 엔진):

    • 역할: 실제로 차량이 달리는 도로와 엔진입니다.
    • 특징:
      • 중첩 주행: 엔진이 다음 작업을 준비하는 동안, 현재 작업이 동시에 진행되도록 하여 '공백 시간'을 없앱니다.
      • 효율적인 주차장 (메모리 관리): AI 가 기억해야 할 정보 (KV Cache) 를 꽉 찬 주차장에 차를 주차하듯, 논리적으로는 한 줄로 보이지만 물리적으로는 빈 공간마다 나누어 주차하여 공간을 최대한 활용합니다.

2. 주요 혁신 기술 3 가지 (비유로 이해하기)

① "구급차와 화물차의 완벽한 공존" (온라인/오프라인 통합 스케줄링)

  • 기존 방식: 구급차가 오면 화물차를 모두 도로에서 내보내고, 구급차가 지나가면 다시 화물차를 태워야 해서 시간이 낭비되었습니다.
  • xLLM 방식: 동시 주행을 허용합니다. 구급차 (사용자 채팅) 가 급하면 화물차 (배경 작업) 를 잠시 멈추게 하고, 구급차가 지나가면 다시 화물차를 달립니다.
  • 효과: 도로 (컴퓨터 자원) 가 비어 있는 시간을 없애고, 구급차의 도착 시간 (대기 시간) 도 보장합니다.

② "상황에 따라 변하는 차선" (동적 PD 분리)

  • 기존 방식: '가속 차선 (Prefill, 문장 시작)'과 '정속 차선 (Decode, 문장 이어가기)'의 비율을 고정해 두었습니다. 사람이 몰려서 가속이 필요할 때 정속 차선이 비어있으면 낭비였습니다.
  • xLLM 방식: 실시간 교통량을 보고 차선을 바꿉니다. 문장을 시작하는 요청이 많으면 가속 차선을 늘리고, 문장을 이어가는 요청이 많으면 정속 차선을 늘립니다.
  • 효과: 컴퓨터 칩이 쉬는 시간 (공백) 을 극도로 줄여, 같은 하드웨어로 2 배 이상 많은 사람을 처리할 수 있습니다.

③ "논리적으로 한 줄, 물리적으로 여러 곳" (xTensor 메모리 관리)

  • 기존 방식: 긴 문장을 처리하려면 미리 아주 큰 주차장 (메모리) 을 확보해 둬야 했습니다. 짧은 문장도 큰 공간을 차지해 비효율적이었습니다.
  • xLLM 방식: 가상 주소를 사용합니다. 사용자에게는 "메모리가 한 줄로 이어져 있다"고 보여주고, 실제로는 빈 공간이 있는 곳마다 조각조각 나누어 주차합니다.
  • 효과: 메모리 낭비를 막아 더 긴 대화 (긴 문맥) 를 처리할 수 있게 되었고, 메모리 부족으로 인한 오류도 줄였습니다.

3. 실제 성과: 얼마나 빨라졌나요?

이 기술은 이미 **JD.com(징둥닷컴)**이라는 거대한 중국 이커머스 기업에서 실제 서비스 (AI 챗봇, 추천 시스템 등) 에 적용되었습니다.

  • 속도: 기존 시스템 (MindIE, vLLM) 보다 최대 2.2 배 더 많은 요청을 처리합니다.
  • 비유: 기존에 1 시간 걸리던 작업을 30 분 만에 끝내고, 동시에 두 배의 고객을 응대할 수 있게 된 것입니다.
  • 신뢰성: 서버가 고장 나거나 네트워크가 끊겨도, 다른 서버로 즉시 이동하여 서비스를 멈추지 않게 합니다.

4. 결론: 왜 중요한가요?

xLLM 은 단순히 AI 를 더 빠르게 만드는 것을 넘어, AI 를 더 저렴하고 안정적으로 사용할 수 있게 해줍니다. 마치 교통 체증을 해결하는 스마트 교통 시스템처럼, AI 시대의 '데이터 교통 체증'을 해결하여 기업들이 더 많은 사용자에게 더 좋은 AI 서비스를 제공할 수 있는 기반을 마련했습니다.

이 기술은 오픈소스로 공개되어, 전 세계 개발자들이 더 빠르고 효율적인 AI 시스템을 만들 수 있도록 돕고 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →