A Study on Inference Latency for Vision Transformers on Mobile Devices

이 논문은 모바일 기기에서 비전 트랜스포머 (ViT) 와 CNN 의 성능을 비교 분석하여 지연 시간을 결정하는 요인을 규명하고, 이를 바탕으로 1000 개의 합성 ViT 데이터셋을 구축하여 새로운 ViT 의 추론 지연 시간을 정확하게 예측할 수 있음을 보여줍니다.

Zhuojin Li, Marco Paolieri, Leana Golubchik

게시일 2026-02-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"스마트폰에서 최신 AI(비전 트랜스포머) 가 얼마나 느리게 작동하는지, 그리고 왜 그런지"**를 연구한 내용입니다.

쉽게 말해, **"스마트폰에 무거운 AI 를 심었을 때, 배터리와 속도가 얼마나 버티는지"**를 실험실처럼 꼼꼼히 분석한 보고서입니다.

이 복잡한 연구를 일반인도 이해할 수 있도록 세 가지 핵심 이야기비유로 정리해 드릴게요.


1. 연구의 배경: "왜 갑자기 AI 가 느려진 걸까?"

과거 스마트폰의 카메라나 증강현실 (AR) 기능은 주로 **CNN(합성곱 신경망)**이라는 '전통적인' AI 기술을 썼습니다. 이는 마치 작은 창문 (필터) 을 하나씩 움직이며 벽돌 (이미지) 을 쌓아 올리는 건축가처럼, 국소적인 부분부터 차근차근 분석하는 방식이라 스마트폰에서 잘 돌아갔습니다.

하지만 최근 **ViT(비전 트랜스포머)**라는 '최신' AI 가 등장했습니다. 이는 한눈에 전체를 훑어보는 천재처럼, 이미지 전체의 관계를 한 번에 파악합니다. 정확도는 훨씬 좋지만, 계산량이 너무 많아서 스마트폰처럼 작은 컴퓨터에서는 숨이 턱턱 막힙니다.

🔍 연구의 목적:
"이 최신 AI 를 스마트폰에 넣으려면, 정확도만 보고 넣으면 안 됩니다. 얼마나 느려지는지, 왜 느려지는지를 정확히 알아야 합니다."


2. 핵심 발견: "왜 ViT 는 스마트폰에서 고생할까?"

저자들은 190 개의 실제 ViT 모델과 102 개의 기존 CNN 모델을 스마트폰에서 실행해 보며 놀라운 사실을 발견했습니다.

① "계산량 (FLOPS) 이 비슷해도 속도는 다릅니다"

  • 비유: 두 대의 차가 같은 양의 연료 (계산량) 를 쓴다고 해서, 같은 속도로 달리는 건 아닙니다.
  • 사실: ViT 는 CNN 과 비슷한 '계산량'을 써도, 실제 실행 시간은 1.75 배나 더 느렸습니다.
  • 이유: ViT 는 이미지 조각들끼리 서로 대화 (Self-attention) 하느라, 데이터가 메모리에서 오가는 횟수가 너무 많기 때문입니다.

② "메모리 병목 현상: 도로가 막힌 것"

  • 비유: ViT 는 고속도로 (메모리 대역폭) 가 좁은 시골길을 달리는 대형 트럭 같습니다. 트럭이 커서 (데이터가 많아서) 도로가 꽉 막히면, 엔진 (CPU) 이 아무리 빨라도 속도가 안 나옵니다.
  • 사실: ViT 는 CNN 보다 메모리 접근에 훨씬 더 의존합니다. 메모리 속도를 높여주면 ViT 는 훨씬 빨라지지만, CPU 속도만 높여주는 건 효과가 적었습니다.

③ "소프트웨어의 장벽: 번역기의 차이"

  • 비유: 같은 음식을 요리하더라도, **요리사 (ML 프레임워크)**가 다르면 요리 시간이 다릅니다.
    • PyTorch Mobile: 요리를 하다가 재료를 쟁반에서 접시로 옮길 때 (메모리 포맷 변환) 시간을 많이 씁니다.
    • TFLite: 처음부터 접시에 맞춰서 재료를 준비하므로 훨씬 빠릅니다.
  • 사실: 같은 AI 모델이라도, 어떤 소프트웨어 (프레임워크) 로 실행하느냐에 따라 속도가 2 배 이상 차이 날 수 있습니다.

④ "숫자의 함정: GELU 활성화 함수"

  • 비유: 어떤 계산은 입력된 숫자가 1 이냐 2 냐에 따라 계산하는 방법이 달라져서, 시간이 2 배 이상 걸리기도 합니다.
  • 사실: ViT 가 많이 쓰는 'GELU'라는 계산 함수는 입력값에 따라 계산 방식이 바뀌어, 계산량 (FLOPS) 으로만 속도를 예측하는 게 불가능하게 만들었습니다.

3. 해결책: "예측 지도를 만들다"

저자들은 이 복잡한 문제들을 해결하기 위해 가상의 AI 모델 1,000 개를 만들어 실험하고, 그 데이터를 바탕으로 **"속도 예측기"**를 만들었습니다.

  • 무엇을 했나요?

    • 다양한 스마트폰 (아이폰, 갤럭시 등 6 종) 과 소프트웨어 (PyTorch, TFLite) 에서 1,000 개의 가짜 AI 모델을 실행해 보았습니다.
    • 이 데이터를 학습시켜, **"새로운 AI 모델을 설계할 때, 스마트폰에서 얼마나 걸릴지 미리 95% 이상 정확하게 맞추는 프로그램"**을 개발했습니다.
  • 왜 중요한가요?

    1. 자동 설계 (NAS): 개발자가 "이 스마트폰에서 1 초 안에 돌아갈 AI 를 만들어줘"라고 하면, 이 예측기가 "이런 구조로 만들어야 1 초 안에 돌아갑니다"라고 자동으로 설계해 줍니다. (실제 실행해 볼 필요 없이 예측 가능)
    2. 클라우드와 협업: "이 부분은 폰에서, 저 부분은 서버에서 처리하면 가장 빠를 것 같다"는 최적의 분배를 알려줍니다.

📝 한 줄 요약

"최신 AI(ViT) 는 스마트폰에서 '메모리 교통체증'과 '소프트웨어 번역 차이' 때문에 예상보다 훨씬 느립니다. 하지만 우리는 1,000 개의 가짜 실험을 통해 이 느린 이유를 파악하고, 새로운 AI 를 설계할 때 속도를 미리 95% 이상 정확히 예측할 수 있는 도구를 만들었습니다."

이 연구 덕분에 앞으로 스마트폰에서 더 똑똑하면서도 빠른 AI 앱들이 나올 수 있는 길이 열렸습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →