AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU

이 논문은 소비자용 GPU 에서 실행되는 다중 에이전트 AI 작업의 지연 시간 안정성과 처리량을 동시에 개선하기 위해, 프리필과 디코드를 격리하고 동적 예산 할당 및 적응형 CUDA 환경 할당을 통해 프리필과 디코드를 효율적으로 관리하는 'AgentServe' 시스템을 제안합니다.

Yuning Zhang, Yan Yan, Nan Yang, Dong Yuan

게시일 Thu, 12 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍕 비유: "작은 주방과 여러 명의 요리사"

생각해 보세요. **작은 주방 (일반인용 그래픽 카드)**이 있고, 그 안에서 **여러 명의 요리사 (AI 에이전트)**가 동시에 주문을 받고 요리를 하고 있다고 가정해 봅시다.

이전까지의 시스템들은 이 주방을 효율적으로 쓰려고 했지만, 다음과 같은 문제가 있었습니다:

  1. 문제 상황: "긴 레시피"가 "간단한 마무리"를 막는다

    • 냉장고 정리 (Cold Prefill): 새로운 주문이 들어오면 요리사는 긴 레시피 (시스템 프롬프트) 를 처음부터 끝까지 읽어야 합니다. 이 과정은 시간이 오래 걸리고 주방 공간 (컴퓨팅 자원) 을 다 차지합니다.
    • 간단한 마무리 (Short Decode): 레시피를 다 읽고 나면, 실제로 요리를 완성하는 단계는 매우 빠릅니다. 하지만 이 단계는 매우 민감합니다. 요리사가 "이제 요리를 끝낼 때"라고 생각했는데, 갑자기 다른 요리사가 긴 레시피를 읽느라 주방을 다 차지하면, 요리는 멈추고 손님은 기다려야 합니다.
    • 결과: 손님은 "음식이 왜 나오지?"라고 화를 내고, 전체적인 주방의 생산성도 떨어집니다.
  2. 기존 시스템의 한계

    • 기존 시스템들은 "한 번에 한 명씩" 하거나, "조금씩 나누어서" 하려고 했지만, AI 에이전트 작업은 짧고 빠른 반복이 많아서 오히려 더 혼란을 빚었습니다. 마치 주방장이 긴 레시피를 읽는 동안, 다른 요리사들이 요리를 하다가 멈췄다, 다시 시작했다를 반복하는 꼴입니다.

🚀 AgentServe 의 해결책: "세 가지 역할 분리"

AgentServe 는 이 문제를 해결하기 위해 세 가지 핵심 전략을 사용합니다.

1. 역할 나누기 (Isolation)

  • 비유: 주방을 세 구역으로 나눕니다.
    • A 구역 (긴 레시피 읽기): 새로운 주문이 들어오면, 긴 레시피를 읽는 요리사는 A 구역으로 가서 혼자 집중합니다.
    • B 구역 (간단한 수정): 이미 레시피를 읽은 상태에서 추가 정보를 넣는 작업은 B 구역에서 합니다.
    • C 구역 (최종 완성): 요리를 마무리하는 작업은 C 구역에서 합니다.
  • 핵심: C 구역 (요리 완성) 은 절대 방해받지 않도록 보호합니다. A 구역에서 긴 레시피를 읽는다고 해서 C 구역의 요리사가 멈추지 않게 합니다.

2. 동적 예산 관리 (Dynamic Budgeting)

  • 비유: 주방장이 스마트하게 조절합니다.
    • 요리가 잘 나오고 있다면 (속도가 빠르다면), A 구역 (긴 레시피 읽기) 에 조금 더 많은 인력을 보냅니다.
    • 하지만 요리가 느려지거나 손님이 화를 낼 것 같다면 (속도가 느려지면), 즉시 A 구역의 인력을 줄이고 C 구역 (요리 완성) 에 더 많은 인력을 보냅니다.
    • 이 시스템은 매 순간 **"지금 속도가 괜찮은가?"**를 체크해서 인력을 실시간으로 배분합니다.

3. 전용 의자 확보 (CUDA Green Context)

  • 비유: 선점된 의자를 만듭니다.
    • 기존 시스템은 요리사가 필요할 때마다 의자를 찾아서 앉으려다 시간이 걸렸습니다.
    • AgentServe 는 미리 **요리사 전용 의자 (CUDA Green Context)**를 여러 개 만들어 둡니다. 요리사가 앉을 때 바로 앉을 수 있게 해서, 의자를 찾는 시간 (오버헤드) 을 아낍니다. 특히 "요리 완성"을 하는 요리사는 항상 좋은 자리를 보장받습니다.

🏆 어떤 효과가 있을까요?

이 시스템을 적용한 결과, 다음과 같은 놀라운 성과가 있었습니다:

  • 초반 반응 속도 (TTFT): 손님이 주문하고 첫 번째 요리가 나올 때까지 걸리는 시간이 최대 2.8 배 빨라졌습니다. (예: 10 초 걸리던 것이 3~4 초로 줄음)
  • 꾸준한 속도 (TPOT): 요리가 나오는 속도가 일정해져서, 손님이 "음식이 왜 갑자기 멈췄지?"라고 느끼는 경우가 최대 2.7 배 줄었습니다.
  • 안정성: 여러 명의 요리사가 동시에 일해도, 누구도 배고프게 기다리지 않고 모든 주문이 원활하게 처리됩니다.

💡 요약

AgentServe는 일반 가정용 컴퓨터에서도 여러 AI 비서가 동시에 일할 때, "긴 준비 작업 (레시피 읽기)"이 "빠른 실행 작업 (요리 완성)"을 방해하지 않도록 주방을 똑똑하게 재배치한 시스템입니다.

기존의 무거운 AI 서버가 아니라, 우리 집 컴퓨터에서도 AI 비서들이 부드럽고 빠르게 일할 수 있게 해주는 혁신적인 기술이라고 보시면 됩니다.