Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

본 논문은 vLLM 과 AMD AITER 런타임을 활용한 AMD Instinct MI325X GPU 클러스터에서의 다양한 LLM 아키텍처 (MoE+MLA, Dense+GQA 등) 에 대한 생산 환경 추론 성능을 종합적으로 벤치마크하고, 아키텍처별 최적화 전략과 메모리 대역폭 병목 현상을 규명한 연구입니다.

Athos Georgiou

게시일 Thu, 12 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 기술 보고서는 **"AMD 의 최신 슈퍼컴퓨터 칩 (MI325X) 에서 거대 인공지능 (LLM) 을 얼마나 빠르고 효율적으로 돌릴 수 있을까?"**에 대한 실험 결과입니다.

마치 거대한 도서관에서 책을 빠르게 찾아주는 시스템을 테스트하는 것과 비슷합니다. 이 보고서는 책의 종류 (모델 아키텍처) 와 도서관의 구조 (하드웨어) 가 어떻게 맞아야 가장 빠른지, 그리고 어떤 실수를 하면 도서관이 마비되는지 자세히 설명합니다.

핵심 내용을 쉬운 비유로 정리해 드립니다.


1. 실험 배경: 거대한 도서관과 8 개의 슈퍼 서고

연구진은 AMD 의 최신 GPU 8 개가 달린 서버 하나를 사용했습니다.

  • 비유: 마치 8 개의 초대형 서고 (각각 256GB 의 거대한 책장) 가 있는 도서관입니다.
  • 목표: 이 서고들에 4050 억 권에서 1 조 권에 달하는 거대한 책 (AI 모델) 들을 넣고, 동시에 수천 명의 손님이 책을 요청할 때 얼마나 빠르게 책을 찾아줄 수 있는지 테스트했습니다.

2. 주요 발견 1: "모든 책에는 다른 검색 방법이 필요하다" (아키텍처별 최적화)

가장 중요한 결론은 **"하나의 설정으로 모든 모델을 돌릴 수 없다"**는 것입니다. 책의 종류에 따라 검색 방식이 완전히 달라야 합니다.

  • GQA 모델 (예: Llama-3.1, Qwen3-VL):
    • 비유: "정리된 책장"입니다. 책이 잘 정렬되어 있어, **책장을 다른 층으로 옮기는 것 (KV Cache Offloading)**도 쉽고, **큰 책상 (Block Size 16)**을 사용하면 효율이 좋습니다.
    • 결과: 이 방식은 AMD 칩에서 매우 잘 작동하여 가장 빠른 속도를 냈습니다.
  • MLA 모델 (예: DeepSeek, Kimi-K2.5):
    • 비유: "압축된 비밀 문서"입니다. 정보를 매우 작게 압축해 놓아서 책장 공간을 거의 안 쓰지만, **작은 책상 (Block Size 1)**에서만 읽을 수 있고, 다른 층으로 옮기는 것은 불가능합니다.
    • 결과: 이 모델을 돌리려면 AMD 전용 가속기 (AITER) 가 필수입니다. 이걸 끄면 속도가 10 배 이상 느려집니다. 하지만 반대로, 이 가속기를 켜면 측정 결과가 들쑥날쑥해지기도 합니다.

3. 주요 발견 2: "책의 두께보다 '활성화된 페이지'가 중요하다" (활성 파라미터)

많은 사람이 "책이 두꺼울수록 (파라미터가 많을수록) 느리다"고 생각합니다. 하지만 이 실험은 반대를 증명했습니다.

  • 비유: 도서관 사서가 책을 읽을 때, 책 전체를 다 읽는 게 아니라 필요한 페이지만 읽는다면, 책이 1 조 권이라도 400 권짜리 책과 비슷하게 빠르게 처리할 수 있습니다.
  • 결과:
    • DeepSeek (1 조 권짜리 책): 필요한 페이지만 370 억 개를 읽으므로, 4050 억 권짜리 **Llama (전체 읽기)**와 거의 같은 속도를 냈습니다.
    • Qwen3-VL (2350 억 권): 필요한 페이지가 220 억 개뿐이라, 1 조 권짜리 Kimi보다 6.5 배나 더 빠릅니다.
    • 교훈: AI 모델의 총 크기가 아니라, **한 번에 실제로 사용하는 양 (Active Parameters)**이 속도를 결정합니다.

4. 주요 발견 3: "도로가 막히는 지점" (병목 현상)

모든 모델은 어느 순간 속도가 더 이상 오르지 않는 '한계점'에 도달했습니다.

  • 비유: 아무리 사서가 빨라도, **도로 (메모리 대역폭)**가 좁으면 차가 몰리면 막힙니다.
  • 현상:
    • 짧은 질문 (500 단어) 을 할 때는 동시 접속자 500 명 정도가 한계입니다. 그 이상이면 도로가 꽉 차서 속도가 더 이상 안 오릅니다.
    • 긴 질문 (2000 단어 이상) 을 할 때는 100~200 명만 되어도 도로가 막힙니다.
    • 중요한 점: 이 한계점에 도달해도 시스템은 절대 멈추지 않았습니다. 1,000 명이 몰려도 모든 요청을 처리해냈습니다. 다만, 답이 늦게 나오는 것뿐입니다. (차량이 멈추지 않고 천천히 움직이는 것과 같습니다.)

5. 주요 발견 4: "거대한 1 조 권짜리 책도 들어갔다!" (Kimi-K2.5)

연구진은 1 조 개의 파라미터를 가진 거대한 모델 (Kimi-K2.5) 을 8 개의 GPU 중 4 개만 사용하여 성공적으로 구동했습니다.

  • 비유: 1 조 권짜리 책을 4 개의 서고에 나누어 넣었는데, 100% 성공률로 모든 손님의 요청을 처리했습니다.
  • 주의점: 이 모델은 AMD 칩의 특정 기능 (AITER) 을 쓸 수 없어서 속도가 다소 느렸지만, 기술적으로 가능하다는 것을 증명한 것입니다.

6. 요약: 우리가 배운 것들

  1. 맞춤형 설정이 필수: AI 모델마다 "책장 정리법" (설정) 이 다릅니다. 무작정 같은 설정을 쓰면 실패하거나 느려집니다.
  2. AMD 칩은 강력함: 8 개의 AMD GPU 가 모이면 1 조 권짜리 거대 모델도 처리할 수 있을 만큼 메모리 공간이 넓고 빠릅니다.
  3. 효율성이 핵심: 모델이 아무리 커도, 실제로 쓰는 부분만 적다면 (MoE 구조) 매우 빠릅니다.
  4. 도로 폭이 한계: CPU 가 빠르더라도, 데이터를 옮기는 '도로' (메모리 대역폭) 가 좁으면 동시에 처리할 수 있는 사람 수에 한계가 있습니다.

결론적으로, 이 보고서는 거대 AI 를 AMD 칩에 올릴 때, **"모델의 성격을 먼저 파악하고, 그에 맞는 맞춤형 설정을 해야만 최고의 속도를 낼 수 있다"**는 사실을 증명했습니다.