RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

이 논문은 AI 가속기에서 캐스케이드 축소 연산 (cascaded reductions) 을 자동으로 단일 루프로 융합하여 최적화된 커널을 생성하는 'RedFuser' 프레임워크를 제안하며, 기존 AI 컴파일러 대비 최대 5 배의 성능 향상을 달성함을 보여줍니다.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang Liu

게시일 Thu, 12 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 왜 지금의 AI 는 느릴까요? (혼란스러운 도서관)

AI 가 복잡한 계산을 할 때, 보통 **'축소 (Reduction)'**라는 작업을 많이 합니다. 예를 들어, "이 책장 전체에서 가장 높은 점수를 가진 책 하나만 찾아라"거나 "모든 책의 페이지 수를 다 더해서 합계를 구해라" 같은 작업이죠.

지금까지의 AI 프로그램 (컴파일러) 은 이 작업을 할 때 다음과 같이 비효율적으로 움직였습니다.

  • 과거의 방식 (여러 번 방문):
    1. 먼저 "가장 높은 점수"를 가진 책을 찾으러 책장 전체를 훑어봅니다. (1 번 방문)
    2. 그 다음, 그 결과를 바탕으로 "페이지 합계"를 계산하기 위해 다시 책장 전체를 훑어봅니다. (2 번 방문)
    3. 만약 이 과정이 여러 단계로 이어진다면 (예: 최고점 찾기 → 합계 구하기 → 평균 내기), 도서관 사서 (AI) 는 같은 책장 사이를 수십 번이나 왕복해야 합니다.

이렇게 **불필요하게 도서관을 오가는 시간 (메모리 접근)**이 너무 길어지면서 AI 가 느려지는 것입니다.

2. 해결책: RedFuser(레드퓨저) 의 등장 (한 번에 끝내는 마법)

이 논문에서 제안한 RedFuser는 이 문제를 해결하는 **'자동화 된 지능형 사서'**입니다.

  • RedFuser 의 방식 (한 번에 정리):
    RedFuser 는 "아, 이 두 가지 작업은 서로 연결되어 있네?"라고 알아챕니다. 그리고 한 번의 방문으로 모든 일을 끝내버립니다.
    • 책을 한 권씩 꺼내면서 "이게 최고점인가? 아니면 합계에 더할 숫자인가?"를 동시에 계산합니다.
    • 책장 사이를 오갈 필요 없이, 손에 든 책만 가지고 모든 계산을 끝냅니다.

이걸 수학적인 용어로 말하면, 여러 단계의 계산을 하나로 합쳐서 (Fusion) 불필요한 데이터 읽기를 없애고, 계산 결과를 **점점 업데이트 (Incremental Computation)**해 나가는 방식입니다.

3. 핵심 아이디어: "점점 업데이트"하는 비법

RedFuser 의 가장 멋진 점은 **'점점 업데이트'**하는 방식입니다.

  • 비유:
    • 예전 방식: "먼저 모든 학생의 점수를 다 받아서 최고점을 찾고, 그 다음 다시 모든 점수를 더해서 합계를 내야 해." (데이터를 모두 모아야 계산 시작)
    • RedFuser 방식: "학생이 하나 들어올 때마다, '지금까지 나온 최고점'과 '지금까지의 합계'를 바로바로 수정해 가자." (데이터가 들어오면 즉시 계산)

이 덕분에 컴퓨터의 **작은 메모리 (캐시)**만으로도 아주 긴 데이터도 처리할 수 있게 되었습니다. 마치 큰 창고에 다 채울 필요 없이, 손에 든 작은 상자에 필요한 것만 계속 채워가며 작업을 끝내는 것과 같습니다.

4. 실제 효과: 얼마나 빨라졌나요?

이 기술을 적용한 결과, 기존에 가장 잘 만들어진 AI 프로그램들보다 2 배에서 5 배까지 더 빨라졌습니다.

  • 손으로 만든 최적화 코드: 예전에는 이 정도 속도를 내려면 수석 엔지니어가 밤새도록 손으로 코드를 짜야 했습니다.
  • RedFuser 의 성과: 이제 이 기술이 자동으로 그 수준에 도달하거나, 그 이상으로 빠르게 작동합니다.

5. 요약: 왜 중요한가요?

지금 AI 모델은 점점 더 거대해지고 있습니다. 하지만 하드웨어의 속도는 그걸 따라가지 못해 병목 현상이 생깁니다.

RedFuser는 이 병목 현상을 해결하는 자동화된 열쇠입니다.

  • 복잡한 계산간단한 한 번의 작업으로 바꿉니다.
  • 불필요한 이동을 없애 전기와 시간을 아껴줍니다.
  • 누구나 쉽게 사용할 수 있도록 자동화했습니다.

결론적으로, RedFuser 는 AI 가 더 똑똑해지고 빠르게 반응할 수 있도록 도와주는 **'효율적인 교통 시스템'**을 구축한 것과 같습니다. 이제 AI 는 더 이상 길에서 막히지 않고, 목적지인 '정답'으로 직행할 수 있게 되었습니다.