A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

Each language version is independently generated for its own context, not a direct translation.

🏗️ 핵심 비유: "거대한 물류 창고와 효율적인 트럭"

지금까지 우리가 숫자를 계산할 때 사용하던 방식 (부동소수점, IEEE-754) 은 마치 매번 트럭을 세우고 짐을 다시 정리하는 물류 시스템과 같습니다.

**기존 방식 **(부동소수점)
- 두 숫자를 더하거나 곱할 때마다, "어? 이 숫자의 크기가 다르네? 그럼 트럭을 멈추고 짐을 다시 싣고, 크기를 맞추고, 정리해야겠다"라고 합니다.
- 이 과정 (정규화, 반올림 등) 이 너무 자주 일어나서, 실제 물건을 나르는 시간보다 준비하는 시간이 더 길어집니다. FPGA 칩에서는 이 '준비 과정'이 전력을 많이 먹고 공간을 차지합니다.
**새로운 방식 **(HRFNA)
- 이 논문은 **"일단 트럭을 멈추지 말고, 짐을 나르는 데만 집중하자"**고 제안합니다.
- 대신, 짐의 크기가 너무 커져서 트럭이 넘칠 것 같을 때만 잠시 멈추고 정리합니다. 그 외의 시간은 계속해서 달립니다.

🚀 HRFNA 가 어떻게 작동할까요? (3 가지 핵심 요소)

이 시스템은 세 가지 아이디어를 섞어서 만듭니다.

1. '나머지'로 계산하기 (Residue Arithmetic)

비유: 큰 숫자를 계산할 때, 100 만 단위의 큰 숫자를 통째로 다루는 대신, 100 만을 7 개의 작은 상자에 나누어 담는 방식입니다.
장점: 각 상자는 서로 독립적으로 작동합니다. 한 상자의 짐을 옮길 때 다른 상자의 짐이 방해받지 않습니다. 그래서 **여러 트럭이 동시에 짐을 나를 수 있어 **(병렬 처리) 속도가 매우 빠릅니다.
기존 방식의 문제점: 기존 방식은 모든 짐을 한 번에 나르려다 보니, 한 트럭이 멈추면 전체가 멈추는 '교통 체증'이 생깁니다.

2. '크기 조절기' (Exponent Scaling)

비유: 짐을 나르는 트럭에는 **'크기 조절기 **(지수)가 따로 달려 있습니다.
계산이 진행되는 동안은 이 조절기를 건드리지 않습니다. 숫자가 커지거나 작아져도 트럭은 계속 달립니다.
중요한 점: 오직 **짐이 너무 커져서 트럭이 붕괴될 것 같을 때만 **(임계값 도달) 조절기를 돌려 짐을 줄이고, 트럭의 크기를 조정합니다.

3. '정리 시간'은 드물게 (Normalization)

비유: 기존 방식은 매번 짐을 나를 때마다 정리하느라 10 분을 기다렸다면, HRFNA 는 100 번 나를 때 1 번만 정리합니다.
이 '정리'를 CRT(중국의 나머지 정리)라는 특수한 기계가 빠르게 해줍니다.
결과: 대부분의 시간은 트럭이 멈추지 않고 달리기만 하므로, **속도가 2 배 이상 빨라지고 전기세 **(전력)입니다.

📊 이 방식이 얼마나 좋은가요? (실험 결과)

연구진은 이 방식을 실제 FPGA 칩에 심어보았고, 다음과 같은 결과를 얻었습니다.

속도: 기존 방식보다 최대 2.4 배 더 빠릅니다. (트럭이 멈추는 시간이 거의 없기 때문입니다.)
공간: 칩의 공간을 38~55% 더 적게 사용합니다. (불필요한 정리 장비가 없기 때문입니다.)
정확도: "정리를 안 하면 숫자가 망가지는 건 아닌가요?"라고 걱정하실 수 있습니다. 하지만 연구진은 **"정리를 할 때만 아주 작은 오차가 생기는데, 그 오차의 범위를 수학적으로 완벽하게 증명했다"**고 말합니다.
- 비유: "우리는 짐을 나르는 동안 오차가 생기지 않게 하고, 오직 정리할 때만 아주 미세하게 (예: 0.0001%) 오차가 생기게 허용합니다. 그리고 그 오차가 얼마나 커질지 미리 계산해 두었습니다."
안정성: 수백만 번의 계산을 반복하는 복잡한 미분 방정식 풀이 같은 작업에서도 오차가 쌓여 터지지 않고 안정적으로 작동했습니다.

💡 결론: 왜 이것이 중요한가요?

이 논문은 단순히 "더 빠른 칩"을 만든 것이 아니라, **숫자를 다루는 철학 **(수학적 모델)을 바꾼 것입니다.

기존: "무조건 정확하고 범용적으로 하려면, 매번 꼼꼼하게 정리해야 해." (비효율적)
HRFNA: "일단 빠르게 나르고, 필요할 때만 정리하자. 그리고 오차의 범위는 미리 약속해 두자." (효율적)

이 방식은 **인공지능 **(AI) 등, 엄청난 양의 숫자 계산을 빠르게 처리해야 하는 미래 기술에 매우 적합합니다. 마치 물류 시스템이 효율적으로 변하면 물류 비용이 줄고 배송이 빨라지듯, 이 기술을 쓰면 컴퓨터의 계산 속도는 빨라지고 전기는 아껴집니다.

한 줄 요약:

"FPGA 칩에서 숫자 계산을 할 때, 매번 멈춰서 정리하는 대신, '나머지'로 나누어 동시에 나르고, 필요할 때만 한 번 정리하는 새로운 시스템을 만들어 속도와 효율을 극대화했습니다."

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 하이브리드 잔여 - 부동 소수점 수치 아키텍처 (HRFNA)

1. 문제 제기 (Problem)

FPGA 의 부동 소수점 연산 비용: FPGA 플랫폼에서 IEEE-754 부동 소수점 (Floating-point) 연산은 넓은 데이터 패스, 정규화 (normalization), 캐리 전파 (carry propagation) 로 인해 하드웨어 자원 (LUT, DSP) 과 전력 소모가 크고 지연 시간이 길어집니다. 이는 심층 파이프라인 설계의 병목 현상을 유발합니다.
기존 대안들의 한계:
- 고정 소수점 (Fixed-point): 하드웨어 효율은 좋으나 동적 범위 (dynamic range) 가 부족하여 반복적 정제나 장기간 누적 연산에 적합하지 않습니다.
- 로그arithm 수계 (LNS): 곱셈을 덧셈으로 변환하지만, 덧셈/뺄셈 시 로그/역로그 변환 비용이 크고 오차가 큽니다.
- 잔여 수계 (RNS): 캐리 없는 병렬 연산이 가능하지만, 크기 비교, 부호 감지, 분수 표현, 오버플로우 감지가 어렵고 중국인의 나머지 정리 (CRT) 를 통한 재구성이 비용이 많이 듭니다.
결론: FPGA 기반 과학 계산 및 CAD 관련 작업 부하에 적합하면서도, 캐리 없는 병렬성, 넓은 동적 범위, 그리고 분석 가능한 오차 모델을 동시에 제공하는 수치 표현 체계가 부재했습니다.

2. 방법론 (Methodology)

저자는 하이브리드 잔여 - 부동 수치 아키텍처 (HRFNA, Hybrid Residue–Floating Numerical Architecture) 를 제안했습니다. 이는 수학적 엄밀함과 하드웨어 효율성을 결합한 완전한 수치 시스템입니다.

수치 표현 (Numerical Representation):
- 정수 부분은 잔여 수계 (RNS) 로 표현하여 캐리 없는 병렬 연산을 수행합니다.
- 스케일링 (동적 범위 관리) 은 경량 지수 (Exponent) 를 사용하여 전역적으로 관리합니다.
- 수학적 정의: 하이브리드 수 $(\mathbf{r}, f)$ 는 $CRT(\mathbf{r}) \cdot 2^f$ 로 매핑되며, 여기서 $\mathbf{r}$ 은 잔여 벡터, $f$ 는 지수입니다.
연산 알고리즘:
- 곱셈: 잔여 채널별 모듈로 곱셈과 지수 덧셈으로 수행되며, 정규화 전까지는 정확합니다.
- 덧셈: 피연산자의 지수를 동기화한 후 잔여 채널별 덧셈을 수행합니다.
- 정규화 (Normalization): 값이 임계치 ( $\tau$ ) 를 초과할 때만 발생합니다. 이때 CRT 를 통해 정수를 재구성한 후 2 의 거듭제곱으로 스케일링하고, 지수를 업데이트합니다. 이는 드물게 발생하는 구조화된 이벤트로 설계되었습니다.
오차 분석:
- 오차는 정규화 시의 반올림 (floor division) 에서만 발생합니다.
- 절대 오차와 상대 오차에 대한 명시적인 상한선 (Error Bounds) 을 수학적으로 증명하여, 오차가 예측 가능하고 제어 가능함을 보였습니다.
하드웨어 아키텍처:
- 3 단계 파이프라인: (1) 잔여 연산 파이프라인, (2) 지수 관리 파이프라인, (3) CRT 기반 정규화 엔진.
- 크리티컬 패스 분리: 정규화와 재구성은 메인 데이터 경로에서 분리되어, 정상 상태 (steady-state) 에서 1 사이클당 1 개의 연산 (Initiation Interval = 1) 을 유지하도록 설계되었습니다.
- 크기 추정: 완전한 CRT 재구성을 피하기 위해 경량 구간 평가 (interval evaluation) 를 사용하여 정규화 필요 여부를 판단합니다.

3. 주요 기여 (Key Contributions)

형식적 수치 모델: 하이브리드 잔여 - 부동 수 공간의 정확한 정의, 연산의 정확성 증명, 그리고 명시적인 오차 상한선 도출.
하드웨어 친화적 설계: FPGA 에 최적화된 심층 파이프라인 아키텍처로, 캐리 전파를 제거하고 정규화 오버헤드를 최소화했습니다.
애플리케이션 레벨 검증: 점곱 (Dot Product), 밀집 행렬 곱셈, Runge-Kutta ODE 솔버 등 다양한 과학 계산 워크로드에서 장기간의 수치적 안정성을 입증했습니다.
성능 및 효율성 비교: 기존 IEEE-754 FP32 및 블록 부동 소수점 (BFP) 시스템과의 종합적인 비교 분석을 통해 HRFNA 의 독창성과 실용성을 입증했습니다.

4. 실험 결과 (Results)

Xilinx Zynq UltraScale+ ZCU104 FPGA 에서 구현 및 평가된 결과는 다음과 같습니다.

성능 (Throughput):
- IEEE-754 FP32 기준 대비 최대 2.4 배 높은 처리량 달성.
- 행렬 곱셈 및 점곱 작업에서 1.8~2.2 배의 성능 향상.
자원 효율성 (Resource Efficiency):
- LUT 사용량이 38~55% 감소.
- 에너지 효율이 최대 1.9 배 개선됨.
수치적 정확도 및 안정성:
- 오차: FP32 와 유사한 RMS 오차 ( $< 10^{-6}$ ) 를 유지하며, 블록 부동 소수점 (BFP) 에서 관찰되는 누적 오차 증가 현상이 없음.
- 안정성: 100 만 단계 이상의 Runge-Kutta ODE 솔버 테스트에서 발산 없이 안정적인 수치 행동을 보임.
- 정규화 빈도: 연산 수에 비해 정규화 이벤트가 매우 드물게 발생하여 (수천 회 연산당 1 회), CRT 재구성 오버헤드가 전체 실행 시간에 미치는 영향이 미미함.

5. 의의 및 결론 (Significance)

새로운 설계 지점: HRFNA 는 부동 소수점의 범용성과 고정 소수점/잔여 수계의 하드웨어 효율성 사이의 균형을 이루는 새로운 설계 지점을 제시합니다.
예측 가능한 오차: 정규화만 오차가 발생하도록 제한함으로써, 장기간의 반복적 계산에서도 오차 성장을 수학적으로 분석하고 제어할 수 있습니다.
FPGA 가속기 최적화: 캐리 없는 병렬 연산과 지수 관리의 분리를 통해 FPGA 의 공간적 병렬성을 극대화하면서도, 과학 계산 및 CAD 관련 워크로드에 필요한 수치적 엄밀함을 제공합니다.
실용성: 단순한 하드웨어 최적화를 넘어, 형식적 검증과 애플리케이션 레벨의 안정성을 모두 갖춘 실용적인 수치 시스템으로서의 가능성을 입증했습니다.

이 연구는 FPGA 기반 고성능 컴퓨팅 분야에서 부동 소수점의 대안으로 HRFNA 를 도입함으로써, 에너지 효율성과 처리량을 획기적으로 개선하면서도 수치적 신뢰성을 유지할 수 있음을 보여줍니다.