Each language version is independently generated for its own context, not a direct translation.
TAO: 부동소수점 신경망을 위한 허용 오차 인식 낙관적 검증 기술 요약
이 논문은 TAO (Tolerance-Aware Optimistic Verification) 를 제안합니다. TAO 는 이기종 가속기 (클라우드 GPU, 엣지 장치 등) 에서 실행되는 부동소수점 (Floating-Point) 신경망의 결과를 검증하기 위한 새로운 프로토콜입니다. 기존의 비트 단위 정확성 (bitwise equality) 을 요구하는 방식의 한계를 극복하고, 부동소수점 연산의 본질적인 비결정성 (non-determinism) 을 허용 오차 범위 내에서 검증하는 혁신적인 접근법을 제시합니다.
1. 문제 정의 (Problem)
현대 머신러닝 시스템은 비용 절감과 확장성을 위해 클라우드, 마켓플레이스, 엣지 가속기 등 제 3 자 인프라에 훈련 및 추론을 아웃소싱하고 있습니다. 그러나 이러한 ML-as-a-Service (MLaaS) 환경에서는 다음과 같은 심각한 문제가 존재합니다:
- 검증 불가능성: 사용자는 실제 실행된 모델, 처리된 입력, 그리고 결과가 의도된 계산을 정확히 반영하는지 확인할 수 없습니다.
- 서비스 저하 위험: 서비스 제공자가 모델을 교체하거나 (model swap), 양자화 (quantization), 그래프 재작성 (graph rewrite) 등을 통해 성능을 저하시키거나 광고 임베딩을 조작할 수 있으며, 사용자는 이를 감지할 수 없습니다.
- 부동소수점 비결정성: 현대 GPU 가속기는 IEEE-754 부동소수점 연산의 비결합성 (non-associativity) 과 커널 병렬 실행, 스레드 스케줄링 등으로 인해 동일한 입력과 모델이라도 하드웨어나 실행 횟수에 따라 미세하게 다른 출력을 생성합니다.
- 기존 기술의 한계:
- zkML (Zero-Knowledge ML): 부동소수점 연산을 필드 산술로 변환하거나 고정소수점으로 변환해야 하므로 계산 비용이 너무 높고 비실용적입니다.
- 결정적 재실행 (Deterministic Replay): 벤더 라이브러리를 포기하거나 커널 설계를 변경해야 하므로 성능 저하와 호환성 문제가 발생합니다.
- TEE (Trusted Execution Environment): 특정 벤더의 하드웨어를 신뢰해야 하며, 성능 저하와 사이드 채널 공격 위험이 있습니다.
- 복제 및 다수결: 대규모 모델의 경우 복제 비용이 너무 커서 확장성이 부족합니다.
2. 방법론 (Methodology)
TAO 는 비트 단위 정확성이 아닌, 원칙적인 허용 오차 (tolerance) 범위 내의 결과를 검증하는 낙관적 (Optimistic) 프로토콜을 사용합니다.
2.1 핵심 개념: 허용 오차 인식 검증 (Tolerance-Aware Verification)
신경망 모델은 작은 반올림 오차에 본질적으로 강건 (robust) 하므로, 사용자에게 중요한 것은 비트 단위 정확성이 아니라 모델의 의미론적 일관성입니다. TAO 는 각 연산자 (operator) 수준에서 정의된 수용 영역 (acceptance regions) 내에서 결과가 존재하면 정당한 것으로 간주합니다.
2.2 두 가지 상보적 오류 모델 (Dual Error Models)
TAO 는 검증의 엄격함과 효율성을 균형 있게 맞추기 위해 두 가지 오류 모델을 결합합니다:
- 이론적 IEEE-754 상한 (Theoretical Bounds): 각 연산자에 대해 입력의 함수로서 최악의 경우 (worst-case) 반올림 오차를 계산합니다. 이는 수학적으로 안전 (sound) 하지만 실제 딥러닝 워크로드에서는 지나치게 보수적 (loose) 일 수 있습니다.
- 실증적 백분위수 임계값 (Empirical Percentile Thresholds): 다양한 하드웨어 (A100, H100 등) 에서 오프라인으로 연산자별 오차 분포를 측정하여 calibrate 한 데이터 기반의 임계값입니다. 이는 이론적 상한보다 훨씬 엄격 (tight) 하지만 실제 하드웨어 차이를 반영합니다.
2.3 Merkle 기반 상호작용 분쟁 게임 (Interactive Dispute Game)
검증 과정은 다음과 같은 단계로 진행됩니다:
- 낙관적 실행 (Optimistic Execution): 제안자 (Proposer) 가 모델을 실행하고 결과에 대한 Merkle 약속 (commitment) 을 게시합니다. 도전 기간 (challenge window) 내에 이의가 없으면 결과가 확정됩니다.
- 분쟁 국소화 (Dispute Localization): 도전자 (Challenger) 가 결과를 재실행하여 오차가 임계값을 초과하면 분쟁을 시작합니다.
- 제안자는 계산 그래프를 Merkle 트리에 기반하여 여러 하위 그래프로 분할합니다.
- 도전자는 실증적 임계값을 기준으로 오차가 발생한 첫 번째 하위 그래프를 선택합니다.
- 이 과정은 O(logN) 번 반복되어 분쟁을 단일 연산자 (single operator) 수준으로 축소합니다.
- 단일 연산자 심판 (Single-Operator Adjudication): 분쟁이 하나의 연산자로 좁혀지면 다음 두 가지 중 하나로 해결됩니다:
- 이론적 상한 확인: 제안자의 결과가 이론적 IEEE-754 오차 한계를 벗어나는지 확인합니다. (저비용, 하지만 허용 오차가 큼)
- 위원회 투표 (Committee Vote): 이론적 상한 내이지만 여전히 의심스러운 경우, 소수의 위원회가 실증적 임계값을 기준으로 재실행하여 다수결로 심판합니다. (고비용, 하지만 매우 엄격함)
2.4 시스템 아키텍처
- PyTorch 런타임: 그래프를 계측 (instrument), 실시간으로 이론적 상한 계산, Merkle 증명 생성 및 검증 수행.
- 블록체인 코디네이터 (Ethereum 스마트 컨트랙트): Merkle 루트, 분쟁 상태, 보증금 (bond), 보상/벌칙 (slashing) 을 관리.
3. 주요 기여 (Key Contributions)
- 경제적으로 검증 가능한 부동소수점 ML 의 의미론 정립: 비트 단위 정확성이 아닌 연산자 수준의 허용 오차를 기반으로 한 낙관적 검증 프로토콜을 설계하여, 결정성 (determinism) 없이도 경제적 최종성 (economic finality) 을 달성했습니다.
- 연산자 단위 오류 분석 및 적대적 공격 연구: 이론적 상한과 실증적 백분위수 프로파일을 개발하고, 이를 우회하려는 적응형 적대적 공격 (gradient-based attacks) 을 설계하여 TAO 의 견고성을 입증했습니다.
- 효율적이고 강력한 분쟁 해결 메커니즘: Merkle 기반의 계층적 분쟁 게임을 통해 불일치를 단일 연산자로 국소화하고, 이론적 확인과 위원회 투표를 결합하여 저비용 심판을 가능하게 했습니다.
- 배포 가능한 PyTorch 런타임 및 엔드 - 투 - 엔드 시스템: 기존 벤더 커널을 수정 없이 FP32 로 실행하면서도 오버헤드가 거의 없는 (0.3% 추가 지연) 실용적인 시스템을 구현하고 Ethereum 테스트넷에서 검증했습니다.
4. 실험 결과 (Results)
- 오차 범위 비교: Transformer 모델 (Qwen3-8B, BERT-large 등) 에서 실증적 임계값은 이론적 최악의 경우 (worst-case) 상한보다 102∼103배 더 엄격했습니다.
- 적대적 공격 방어:
- **실증적 임계값:**精心하게 설계된 공격 하에서도 모든 모델에서 **공격 성공률 (ASR) 0%**를 기록했습니다.
- 이론적 상한만 사용 시: LLM (Qwen3-8B) 의 경우 최대 2.4% 의 공격 성공률이 관찰되어, 이론적 상한만으로는 악의적인 교란을 완전히 막기 어렵다는 것을 보여주었습니다. 이는 실증적 임계값과 위원회 투표의 필요성을 입증합니다.
- 성능 오버헤드:
- 낙관적 실행 단계에서 0.3% 의 지연 시간 증가만 발생했습니다 (Qwen3-8B 기준).
- 메모리 오버헤드는 네이티브 서브그래프 실행 외에 추가되지 않았습니다.
- 분쟁 게임 효율성: N-way 분할을 통해 분쟁을 단일 연산자로 축소하는 데 필요한 라운드 수는 약 3~11 회로 매우 효율적이며, 온체인 가스 비용은 분쟁당 약 2M gas 수준으로 관리 가능합니다.
5. 의의 및 결론 (Significance)
TAO 는 확장성 (Scalability) 과 검증 가능성 (Verifiability) 사이의 오랜 딜레마를 해결합니다.
- 하드웨어 이기종성 수용: 특정 하드웨어나 커널에 의존하지 않고, 부동소수점 연산의 본질적인 비결정성을 인정하면서도 검증 가능한 시스템을 제공합니다.
- 실용성: zkML 의 높은 계산 비용이나 TEE 의 신뢰 문제를 피하면서, 기존 GPU 인프라의 성능을 유지합니다.
- 신뢰 회복: 사용자는 클라우드나 제 3 자에서 실행된 ML 모델이 의도된 대로 작동했음을 검증할 수 있게 되며, 서비스 제공자의 악의적인 서비스 저하 (model swap, quantization 등) 를 방지할 수 있습니다.
결론적으로 TAO 는 현실 세계의 이기종 ML 컴퓨팅 환경에서 신뢰할 수 있는 검증 메커니즘을 제공하며, 분산형 ML 마켓플레이스와 같은 미래 인프라의 핵심 기술로 자리 잡을 잠재력을 가지고 있습니다.