Microbenchmark-Driven Analytical Performance Modeling Across Modern GPU Architectures

본 논문은 이전 세대로의 이식성을 입증하면서 단순한 루프라인 기준보다 현저히 우수한 성능을 보이는 체계적인 마이크로벤치마크 특성 분석에 기반하여 현대 NVIDIA Blackwell 및 AMD CDNA3 GPU 아키텍처에 대한 매우 정확한 분석적 성능 모델을 제시한다.

원저자: Aaron Jarmusch, Sunita Chandrasekaran

게시일 2026-05-07
📖 3 분 읽기☕ 가벼운 읽기

원저자: Aaron Jarmusch, Sunita Chandrasekaran

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

상상해 보세요. 초고속 배송 트럭이 소포를 배달하는 데 얼마나 걸릴지 예측하려 한다고요.

구식 방법 (소위 "Naive Roofline"):
수년 동안 엔지니어들은 다음과 같은 간단한 경험칙을 사용해 왔습니다. "트럭이 시속 100 마일로 주행할 수 있고 소포가 10 파운드라면, X 분 만에 도착할 것이다." 그들은 트럭의 최고 속도 (이론적 피크) 와 도로 상태 (메모리 대역폭) 를 살펴보고 간단한 계산만 수행했습니다.

문제점:
이 구식 규칙은 현대식 트럭 (GPU) 에서는 완전히 실패합니다. 그 이유는 실제 생활이 복잡하기 때문입니다.

  • 트럭은 단순히 주행만 하는 것이 아닙니다. 적하 도크에 정차하고, 특정 엘리베이터를 기다리며, 소포를 특수 컨테이너에 실은 후 주행해야 합니다.
  • 때로는 트럭이 도움을 받기 위해 두 번째 트럭을 기다려야 합니다.
  • 때로는 도로에 "비밀 터널" (캐시) 이 있어 주요 고속도로보다 이동이 빠르지만, 구식 규칙은 이 터널을 알지 못합니다.
  • 트럭 브로셔에 기재된 "최고 속도"는 실제 교통 상황에서는 결코 유지할 수 없는 환상적인 숫자인 경우가 많습니다.

해당 논문은 이 구식 규칙을 사용하면 95% 에서 99% 오차가 발생한다고 말합니다. 10 분 걸릴 여행이 10 시간 걸린다고 예측하거나 그 반대가 되는 것과 같습니다.

새로운 해결책 (마이크로벤치마크 기반 모델):
저자들 (Aaron Jarmusch 와 Sunita Chandrasekaran) 은 현재 시장에서 가장 진보된 두 가지 "트럭"을 위한 새롭고 초정밀 예측 시스템을 구축했습니다.

  1. NVIDIA Blackwell (B200): 최신 하이테크 트럭.
  2. AMD CDNA3 (MI300A): 최신 경쟁사 트럭.

브로셔를 바탕으로 추측하는 대신, 그들은 실제로 이러한 트럭들이 어떻게 행동하는지 정밀하게 측정했습니다. 그들은 배송 과정의 모든 단계를 시간 재기 위해 작고 구체적인 테스트 (마이크로벤치마크) 를 실행했습니다.

구현 방식 (유사성):

  • NVIDIA 트럭 (Blackwell) 의 경우:
    그들은 이 트럭이 매우 구체적이고 조립 라인 스타일을 가지고 있음을 깨달았습니다. 특수한 "적하 도크" (TMEM이라고 함) 와 물건을 자동으로 이동시키는 "대량 로더" (TMA라고 함) 가 있습니다.

    • 모델: 그들은 단계별 스톱워치를 구축했습니다. "1 단계: 데이터 로드 (420 나노초 소요). 2 단계: 특수 도크로 이동. 3 단계: 수학 연산 처리. 4 단계: 다른 트럭과 동기화."
    • 결과: 그들은 1.3% 오차로 시간을 예측했습니다. 이는 10 분 걸릴 여행이 8 초 오차로 예측된 것과 같습니다.
  • AMD 트럭 (MI300A) 의 경우:
    이 트럭은 다릅니다. 운전석 바로 옆에 거대한 "창고" (Infinity Cache라고 함) 가 있고, 운전자는 자신의 좌석 공간 (레지스터) 을 직접 관리해야 합니다.

    • 모델: 그들은 다음과 같은 공식을 만들었습니다. "소포가 창고에 들어갈 만큼 작습니까? 그렇다면 매우 빠릅니다. 아니면 느린 고속도로로 가야 합니다." 또한 운전석의 혼잡도 (occupancy) 도 확인했습니다.
    • 결과: 그들은 0.09% 오차로 시간을 예측했습니다. 이는 놀라울 정도로 정밀하며 거의 완벽합니다.

이것이 중요한 이유:
저자들은 복잡한 수학 문제 (과학 및 AI 에서 사용됨) 와 같은 실제 업무에 새로운 모델을 테스트했습니다.

  • 구식 "Roofline" 방법은 거의 매번 틀렸습니다 (약 100% 오차).
  • 그들의 새로운 방법은 거의 매번 정확했습니다.

"플러그 앤 플레이" 기능:
가장 멋진 점은 구식 트럭 (NVIDIA H200 또는 AMD MI250X 등) 을 위해 완전히 새로운 시스템을 발명할 필요가 없었다는 것입니다. 그들은 기존 모델을 가져와서 "속도 제한"과 "창고 크기" 숫자만 교체하면 다시 작동했습니다. 이는 지도를 다시 작성할 필요 없이 설정에서 차종을 변경하기만 하면 포드, 토요타, 테슬라 모두에 작동하는 GPS 앱과 같습니다.

주의점 (한계):
"배송"이 매끄럽고 예측 가능할 때 (예: 큰 데이터 블록 이동) 모델은 훌륭하게 작동합니다. 배송이 미로 같은 곳 (불규칙한 데이터) 을 지그재그로 통과하거나 초단위 작은 작업에 정차하는 경우 모델의 정확도는 약간 떨어집니다. 또한, 모델은 이동하는 데이터 양을 정확히 알려주는 사람에게 의존합니다. 입력이 틀리면 예측도 틀립니다.

요약:
저자들은 현대 슈퍼컴퓨터를 위한 "스마트 GPS"를 구축했습니다. 마케팅 브로셔를 바탕으로 추측하는 대신 하드웨어의 실제 행동을 측정했습니다. 이를 통해 엔지니어들은 이 새로운 기계에서 작업이 얼마나 걸릴지 거의 완벽한 정확도로 정확히 알 수 있게 되었으며, 이는 구식 방법으로는 불가능한 일이었습니다. 그들은 모든 도구와 측정치를 공개하여 누구나 사용할 수 있도록 공유할 것을 약속했습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →