A Study on Inference Latency for Vision Transformers on Mobile Devices

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"스마트폰에서 최신 AI(비전 트랜스포머) 가 얼마나 느리게 작동하는지, 그리고 왜 그런지"**를 연구한 내용입니다.

쉽게 말해, **"스마트폰에 무거운 AI 를 심었을 때, 배터리와 속도가 얼마나 버티는지"**를 실험실처럼 꼼꼼히 분석한 보고서입니다.

이 복잡한 연구를 일반인도 이해할 수 있도록 세 가지 핵심 이야기와 비유로 정리해 드릴게요.

1. 연구의 배경: "왜 갑자기 AI 가 느려진 걸까?"

과거 스마트폰의 카메라나 증강현실 (AR) 기능은 주로 **CNN(합성곱 신경망)**이라는 '전통적인' AI 기술을 썼습니다. 이는 마치 작은 창문 (필터) 을 하나씩 움직이며 벽돌 (이미지) 을 쌓아 올리는 건축가처럼, 국소적인 부분부터 차근차근 분석하는 방식이라 스마트폰에서 잘 돌아갔습니다.

하지만 최근 **ViT(비전 트랜스포머)**라는 '최신' AI 가 등장했습니다. 이는 한눈에 전체를 훑어보는 천재처럼, 이미지 전체의 관계를 한 번에 파악합니다. 정확도는 훨씬 좋지만, 계산량이 너무 많아서 스마트폰처럼 작은 컴퓨터에서는 숨이 턱턱 막힙니다.

🔍 연구의 목적:
"이 최신 AI 를 스마트폰에 넣으려면, 정확도만 보고 넣으면 안 됩니다. 얼마나 느려지는지, 왜 느려지는지를 정확히 알아야 합니다."

2. 핵심 발견: "왜 ViT 는 스마트폰에서 고생할까?"

저자들은 190 개의 실제 ViT 모델과 102 개의 기존 CNN 모델을 스마트폰에서 실행해 보며 놀라운 사실을 발견했습니다.

① "계산량 (FLOPS) 이 비슷해도 속도는 다릅니다"

비유: 두 대의 차가 같은 양의 연료 (계산량) 를 쓴다고 해서, 같은 속도로 달리는 건 아닙니다.
사실: ViT 는 CNN 과 비슷한 '계산량'을 써도, 실제 실행 시간은 1.75 배나 더 느렸습니다.
이유: ViT 는 이미지 조각들끼리 서로 대화 (Self-attention) 하느라, 데이터가 메모리에서 오가는 횟수가 너무 많기 때문입니다.

② "메모리 병목 현상: 도로가 막힌 것"

비유: ViT 는 고속도로 (메모리 대역폭) 가 좁은 시골길을 달리는 대형 트럭 같습니다. 트럭이 커서 (데이터가 많아서) 도로가 꽉 막히면, 엔진 (CPU) 이 아무리 빨라도 속도가 안 나옵니다.
사실: ViT 는 CNN 보다 메모리 접근에 훨씬 더 의존합니다. 메모리 속도를 높여주면 ViT 는 훨씬 빨라지지만, CPU 속도만 높여주는 건 효과가 적었습니다.

③ "소프트웨어의 장벽: 번역기의 차이"

비유: 같은 음식을 요리하더라도, **요리사 (ML 프레임워크)**가 다르면 요리 시간이 다릅니다.
- PyTorch Mobile: 요리를 하다가 재료를 쟁반에서 접시로 옮길 때 (메모리 포맷 변환) 시간을 많이 씁니다.
- TFLite: 처음부터 접시에 맞춰서 재료를 준비하므로 훨씬 빠릅니다.
사실: 같은 AI 모델이라도, 어떤 소프트웨어 (프레임워크) 로 실행하느냐에 따라 속도가 2 배 이상 차이 날 수 있습니다.

④ "숫자의 함정: GELU 활성화 함수"

비유: 어떤 계산은 입력된 숫자가 1 이냐 2 냐에 따라 계산하는 방법이 달라져서, 시간이 2 배 이상 걸리기도 합니다.
사실: ViT 가 많이 쓰는 'GELU'라는 계산 함수는 입력값에 따라 계산 방식이 바뀌어, 계산량 (FLOPS) 으로만 속도를 예측하는 게 불가능하게 만들었습니다.

3. 해결책: "예측 지도를 만들다"

저자들은 이 복잡한 문제들을 해결하기 위해 가상의 AI 모델 1,000 개를 만들어 실험하고, 그 데이터를 바탕으로 **"속도 예측기"**를 만들었습니다.

무엇을 했나요?
- 다양한 스마트폰 (아이폰, 갤럭시 등 6 종) 과 소프트웨어 (PyTorch, TFLite) 에서 1,000 개의 가짜 AI 모델을 실행해 보았습니다.
- 이 데이터를 학습시켜, **"새로운 AI 모델을 설계할 때, 스마트폰에서 얼마나 걸릴지 미리 95% 이상 정확하게 맞추는 프로그램"**을 개발했습니다.
왜 중요한가요?
1. 자동 설계 (NAS): 개발자가 "이 스마트폰에서 1 초 안에 돌아갈 AI 를 만들어줘"라고 하면, 이 예측기가 "이런 구조로 만들어야 1 초 안에 돌아갑니다"라고 자동으로 설계해 줍니다. (실제 실행해 볼 필요 없이 예측 가능)
2. 클라우드와 협업: "이 부분은 폰에서, 저 부분은 서버에서 처리하면 가장 빠를 것 같다"는 최적의 분배를 알려줍니다.

📝 한 줄 요약

"최신 AI(ViT) 는 스마트폰에서 '메모리 교통체증'과 '소프트웨어 번역 차이' 때문에 예상보다 훨씬 느립니다. 하지만 우리는 1,000 개의 가짜 실험을 통해 이 느린 이유를 파악하고, 새로운 AI 를 설계할 때 속도를 미리 95% 이상 정확히 예측할 수 있는 도구를 만들었습니다."

이 연구 덕분에 앞으로 스마트폰에서 더 똑똑하면서도 빠른 AI 앱들이 나올 수 있는 길이 열렸습니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 모바일 기기에서의 비전 트랜스포머 (ViT) 추론 지연 시간 연구

1. 연구 배경 및 문제 정의 (Problem)

배경: 모바일 기기에서의 머신러닝 (ML) 기술, 특히 컴퓨터 비전 (CV) 분야가 급격히 발전하고 있으며, Vision Transformer (ViT) 는 기존 합성곱 신경망 (CNN) 을 능가하는 정확도를 보여주고 있습니다.
문제: ViT 는 자기 주의 (Self-Attention) 메커니즘을 사용하는데, 이는 계산 비용이 높고 메모리 접근 패턴이 복잡하여 제한된 컴퓨팅 자원과 메모리를 가진 모바일 기기에서 추론 지연 시간 (Latency) 을 크게 증가시킵니다.
연구 필요성: 기존 연구들은 주로 클라우드 GPU 환경의 훈련 성능이나 CNN 에 초점을 맞추었으며, 모바일 환경 (특히 CPU) 에서의 ViT 성능, 메모리 병목 현상, 그리고 다양한 ML 프레임워크 (PyTorch Mobile, TensorFlow Lite) 의 구현 차이에 따른 지연 시간 변동을 체계적으로 분석한 연구는 부족했습니다.

2. 연구 방법론 (Methodology)

이 연구는 크게 실제 모델 분석, 인공 데이터셋 구축, 지연 시간 예측 모델 개발의 세 단계로 진행되었습니다.

실제 모델 프로파일링 (Real-world Analysis):
- 데이터셋: Timm 및 HuggingFace 에서 수집한 190 개의 실제 ViT 모델과 비교를 위한 102 개의 CNN 모델을 분석했습니다.
- 플랫폼: 6 가지 모바일 플랫폼 (Google Pixel 4, Motorola One Fusion, Samsung Galaxy S10/A03s, iPhone 12/XS 등) 과 2 가지 ML 프레임워크 (PyTorch Mobile, TensorFlow Lite) 에서 실행했습니다.
- 측정 항목: 다양한 CPU 코어 조합 (대형/중형/소형), 양자화 (Quantization) 적용 유무, 입력 해상도 변화에 따른 지연 시간 및 메모리 소비를 측정했습니다.
인공 ViT 데이터셋 구축 (Synthetic Dataset Construction):
- 검색 공간 설계 (Search Space): 최신 효율적인 ViT 아키텍처 (EfficientViT 등) 의 구성 요소를 반영하여 1,000 개의 인공 ViT를 생성했습니다.
- 변수: 패치 크기, 임베딩 차원, 토큰 믹서 (SepConv 또는 Attention), 정규화 방법 (BatchNorm/LayerNorm), 활성화 함수 (GELU/SiLU), 메모리 포맷 (NCHW/NHWC) 등을 다양하게 조합했습니다.
- 목적: 실제 모델로 커버하기 어려운 다양한 아키텍처 조합을 생성하여 지연 시간 예측 모델의 학습 데이터를 확보합니다.
지연 시간 예측 모델 개발:
- 생성된 데이터 (900 개 학습, 100 개 테스트) 를 기반으로 Lasso, Random Forest (RF), Gradient Boosted Decision Trees (GBDT) 모델을 훈련시켜 각 연산 (Conv, Linear, Activation 등) 의 지연 시간을 예측하고 이를 합산하여 전체 모델 지연 시간을 추정했습니다.

3. 주요 연구 결과 및 통찰 (Key Findings & Results)

ViT vs CNN 성능 비교:
- 지연 시간: 유사한 FLOPs (부동소수점 연산 횟수) 를 가진 경우에도 ViT 는 CNN 보다 1.75 배 이상 더 높은 지연 시간을 보였습니다. 이는 자기 주의 메커니즘의 $O(N^2)$ 복잡도 때문입니다.
- 메모리 병목 (Memory Bound): ViT 는 CNN 보다 메모리 대역폭에 더 민감합니다. 메모리 주파수를 높였을 때 ViT 의 속도 향상 폭이 CNN 보다 훨씬 컸으며, CPU 클럭 증가에 따른 지연 시간 감소 효과는 상대적으로 작았습니다.
- 메모리 소비: ViT 는 중간 텐서 (Intermediate Tensors) 로 인해 모델 크기가 비슷해도 CNN 보다 더 많은 메모리를 소비하며, 입력 해상도가 커질수록 메모리 소비가 급격히 증가합니다.
지연 시간에 영향을 미치는 핵심 요인:
1. 메모리 포맷 (Memory Format): PyTorch Mobile 에서 채널 우선 (NCHW) 과 채널 마지막 (NHWC) 포맷 간 전환은 컨볼루션 연산 시 메모리 복사 오버헤드를 발생시켜 지연 시간에 큰 영향을 미칩니다. NHWC 포맷이 특정 조건에서 2 배 이상 빠른 속도를 보였습니다.
2. 활성화 함수 (Activation Functions): ViT 에서 주로 사용되는 GELU 활성화 함수는 입력 값에 따라 구현 방식 (정확한 erf 계산 vs 근사 tanh) 이 달라져 지연 시간이 크게 변동합니다. 이는 FLOPs 기반 예측이 불가능한 주요 원인입니다.
3. ML 프레임워크 차이: 동일한 연산이라도 PyTorch Mobile 과 TFLite 에서 사용하는 계산 라이브러리 (XNNPACK vs QNNPACK 등) 가 달라 지연 시간이 크게 다릅니다. 특히 양자화 시, PyTorch Mobile 의 대형 코어에서는 성능 저하가 발생하기도 했습니다.
예측 모델 정확도:
- Synthetic ViT: GBDT 모델을 사용한 예측은 PyTorch Mobile 에서 4.4%, TFLite 에서 **4.8%**의 평균 오차 (MAPE) 를 보였습니다.
- Real-world ViT: 학습 데이터에 포함되지 않은 실제 ViT 모델에 대해서도 PyTorch Mobile 에서 8.2%, TFLite 에서 **6.1%**의 높은 정확도로 지연 시간을 예측할 수 있었습니다.
- 데이터 양 영향: 소량의 데이터 (30 개 ViT) 로만 학습하더라도 GBDT 는 NAS(신경망 구조 탐색) 에 활용 가능한 수준의 정확도를 보여주었습니다.

4. 주요 기여 (Key Contributions)

포괄적인 성능 분석: 190 개의 실제 ViT 와 102 개의 CNN 을 6 가지 모바일 플랫폼에서 비교 분석하여, ViT 의 지연 시간 패턴, 메모리 병목 현상, FLOPs 의 한계를 정량적으로 규명했습니다.
대규모 ViT 지연 시간 데이터셋 공개: 190 개 실제 모델과 1,000 개 인공 모델을 포함하는 데이터셋을 공개하여, 연구자와 개발자가 모바일 ViT 성능을 분석할 수 있는 기반을 마련했습니다.
고정확도 지연 시간 예측기 개발: 인공 ViT 데이터로 훈련된 ML 예측기가 실제 SOTA ViT 아키텍처의 지연 시간을 높은 정확도로 예측할 수 있음을 입증했습니다.

5. 의의 및 활용 (Significance & Impact)

Neural Architecture Search (NAS): 실제 모바일 기기 배포 전, 지연 시간 예측기를 통해 정확도와 효율성 사이의 균형을 맞추는 최적의 ViT 아키텍처를 자동으로 탐색할 수 있어, 배포 비용과 시간을 절감할 수 있습니다.
분할 추론 (Split Inference): 클라우드와 단말기 간 모델 분할 시, 각 부분의 지연 시간을 정확히 예측하여 최적의 분할 지점을 결정하고 통신 오버헤드와 로컬 계산 시간을 균형 있게 조절할 수 있습니다.
실무 적용: 모바일 환경에서 ViT 의 실시간 적용 가능성을 평가하고, 메모리 포맷 최적화 및 프레임워크 선택에 대한 실질적인 가이드라인을 제공합니다.

6. 결론

이 연구는 모바일 기기에서 ViT 의 추론 지연 시간이 단순히 계산량 (FLOPs) 에만 의존하지 않으며, 메모리 접근 패턴, 활성화 함수의 입력 값 의존성, 프레임워크 구현 세부 사항 등에 의해 결정됨을 밝혔습니다. 이를 바탕으로 구축된 데이터셋과 예측 모델은 모바일 ViT 의 효율적인 설계와 배포를 위한 핵심 도구로 활용될 수 있습니다.

A Study on Inference Latency for Vision Transformers on Mobile Devices

1. 연구의 배경: "왜 갑자기 AI 가 느려진 걸까?"

2. 핵심 발견: "왜 ViT 는 스마트폰에서 고생할까?"

① "계산량 (FLOPS) 이 비슷해도 속도는 다릅니다"

② "메모리 병목 현상: 도로가 막힌 것"

③ "소프트웨어의 장벽: 번역기의 차이"

④ "숫자의 함정: GELU 활성화 함수"

3. 해결책: "예측 지도를 만들다"

📝 한 줄 요약

논문 요약: 모바일 기기에서의 비전 트랜스포머 (ViT) 추론 지연 시간 연구

1. 연구 배경 및 문제 정의 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 연구 결과 및 통찰 (Key Findings & Results)

4. 주요 기여 (Key Contributions)

5. 의의 및 활용 (Significance & Impact)

6. 결론

유사한 논문

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank