Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Each language version is independently generated for its own context, not a direct translation.

기존의 FPGA 가속기들은 마치 완벽하게 배치된 공장과 같았습니다.

상황: 입력된 데이터 (이미지) 가 들어오면, 각 부품 (뉴런) 이 하나씩 할당되어 작업을 합니다.
문제: 하지만 CNN(합성곱 신경망) 은 데이터를 처리할 때마다 데이터의 양이 줄어들어 버립니다.
- 예를 들어, 이미지를 2 배로 줄이는 '풀링 (Pooling)' 작업을 하면, 데이터 양이 4 분의 1 로 줄어듭니다.
- 이때 공장 라인이 그대로라면? 작업이 줄어든데도 공장 인원은 그대로여서, 대부분의 기계가 **빈손으로 서서 기다리는 시간 **(유휴 시간)이 생깁니다.
- 이는 자원 낭비이고, 비효율적입니다.

저자들은 이 문제를 해결하기 위해 **"데이터 흐름 **(Continuous Flow)을 고려한 새로운 공장을 설계했습니다.

**비유 1: 차선 합치기 **(데이터 인터리빙)
- 데이터 양이 줄어든 구간에서는, 여러 개의 차선 (데이터 흐름) 을 하나로 합쳐서 계속해서 차가 흐르도록 만듭니다.
- 마치 4 차선 도로가 1 차선으로 줄어들 때, 차들이 줄지 않고 계속 흐르도록 차선 변경을 지시하는 것과 같습니다. 이렇게 하면 기계가 멈추지 않고 계속 일을 할 수 있습니다.
**비유 2: 다목적 로봇 팔 **(재구성 가능한 하드웨어)
- 기존에는 "한 기계는 한 가지 일만 한다"는 방식이었습니다.
- 이 방식은 한 대의 기계가 상황에 따라 여러 가지 일을 할 수 있도록 설계했습니다.
- 데이터가 많을 때는 여러 대의 기계가 동시에 일하고, 데이터가 적을 때는 한 대의 기계가 빠르게 여러 번 돌아가며 모든 일을 처리합니다. 마치 변신 로봇처럼 상황에 맞춰 역할을 바꾸는 것입니다.
**비유 3: 보이지 않는 테두리 **(패딩)
- 이미지 가장자리를 처리할 때, 기존 방식은 데이터를 멈추게 하거나 비효율적으로 처리했습니다.
- 이 논법은 **가상의 테두리 **(패딩)를 만들어서, 기계가 멈추지 않고 계속해서 데이터를 받아들이는 흐름을 유지하게 합니다.

**자원 절약 **(돈 아끼기)
- 불필요하게 많은 기계 (하드웨어) 를 설치할 필요가 없습니다. 적은 자원으로 복잡한 모델 (예: MobileNet) 을 하나의 FPGA 칩에 넣을 수 있게 되었습니다.
- 결과: 전기를 덜 쓰고, 칩 크기를 줄일 수 있습니다.
**높은 효율 **(100% 활용)
- 기계가 쉬는 시간이 거의 없습니다. 모든 순간에 일을 하고 있어 효율이 100% 에 가깝습니다.
**유연성 **(맞춤형 설계)
- 필요한 처리 속도 ( throughput) 에 따라 하드웨어의 크기를 조절할 수 있습니다.
- "속도가 중요하면" 자원을 더 쓰고, "비용이 중요하면" 자원을 줄여서 속도를 조절할 수 있습니다.

이론만 좋은 게 아니라, 실제로 MobileNet이라는 유명한 AI 모델을 FPGA 에 구현해 보았습니다.

"데이터가 줄어드는 구간에서도 기계가 멈추지 않고 계속 일할 수 있도록, 데이터를 clever하게 섞고 기계를 상황에 맞게 변신시켜서, 적은 비용으로 최고의 성능을 내는 AI 가속기 설계법입니다."

이 기술은 자율주행차, 드론, 스마트폰 등 전기와 공간이 제한된 환경에서 AI 를 빠르게 구동하는 데 큰 도움이 될 것입니다.

유사한 논문