Each language version is independently generated for its own context, not a direct translation.

🍕 비유: "피자 배달과 TAO"

상상해 보세요. 당신이 **피자 (AI 모델)**를 시켰는데, 배달원이 **다른 가게 (서드파티 하드웨어)**에서 구워진 피자를 가져왔다고 합시다.

기존의 문제점 (완벽한 일치 요구):
- 예전에는 "내 주문한 피자가 완벽하게 똑같은 모양, 똑같은 치즈 양, 똑같은 굽기 상태여야 한다"고 요구했습니다.
- 하지만 문제는, **다른 주방 (하드웨어)**에서 같은 레시피로 피자를 구우면, 오븐의 미세한 온도 차이나 조리사의 손놀림 때문에 매우 미세하게 달라질 수밖에 없다는 점입니다.
- 이 미세한 차이를 이유로 "피자가 가짜다!"라고 따지면, 배달원은 항의할 수밖에 없습니다. 결국 "완벽한 일치"를 요구하면 검증 자체가 불가능해지거나, 비싼 비용 (시간, 에너지) 이 듭니다.
TAO 의 해결책 (허용 오차 범위):
- TAO 는 이렇게 말합니다. "완벽하게 똑같을 필요는 없어. 다만, 치즈가 녹아내리거나 피자가 타는 정도 (허용 오차) 를 벗어나지 않으면 OK 야."
- 이를 '오염 허용 (Tolerance-Aware)' 방식이라고 합니다.

🕵️‍♂️ TAO 가 어떻게 작동할까요? (3 단계 프로세스)

TAO 는 의심스러운 결과가 나왔을 때, 전체를 다시 다 확인하는 게 아니라 논리적으로 좁혀가는 방식을 사용합니다.

1 단계: "믿고 먼저 실행해" (낙관적 실행)

상황: 배달원이 "피자 왔습니다!"라고 말합니다.
TAO: "알겠어. 일단 받아. 만약 10 분 안에 누가 "이거 이상해!"라고 고발하지 않으면, 너가 정직한 거로 인정하고 돈을 지불해."
효과: 대부분의 경우 (99% 이상) 는 아무도 의심하지 않으므로, 검증 없이도 빠르게 서비스가 완료됩니다.

2 단계: "어디서 틀렸는지 찾아봐" (논쟁 게임)

상황: 누군가 "이 피자가 너무 구워졌어!"라고 고발합니다.
TAO: "자, 이제 피자를 조각조각 나눠서 어디가 문제인지 찾아보자."
- 전체 피자를 반으로 잘라보고, 문제 있는 반쪽을 다시 반으로 잘라봅니다.
- 핵심: TAO 는 "치즈가 0.1g 차이 나는 건 괜찮지만, 10g 차이라면 문제야"라는 **미리 정해진 기준 (임계값)**을 가지고 있습니다.
- 이 기준을 이용해 **정확히 어느 조각 (어떤 연산 단계)**에서 문제가 생겼는지 찾아냅니다.

3 단계: "최종 심판" (단일 연산자 심판)

상황: 결국 치즈 한 조각 하나만 남았습니다.
TAO: "이 치즈 조각이 기준치 안에 들어오는지 확인해."
- 방법 A (이론적 확인): "이론적으로 이 치즈가 이렇게 녹을 수 있어"라는 공식을 계산해 봅니다. (빠르지만 기준이 너그러울 수 있음)
- 방법 B (실제 투표): 만약 이론적 계산이 애매하다면, 심사위원 5 명을 불러서 그 치즈 조각을 직접 보고 "이게 정상 범위야?"라고 투표하게 합니다. (정확하지만 비용이 좀 듦)
결과: 만약 기준을 벗어났다면, 배달원 (공급자) 의 보증금 (예치금) 을没収하고 고발자에게 줍니다.

💡 왜 이것이 중요한가요?

하드웨어의 자유: AI 를 실행하는 칩이 NVIDIA 가 되든 AMD 가 되든, 클라우드가 되든 상관없습니다. 서로 다른 칩은 계산 결과가 미세하게 다를 수 있는데, TAO 는 이를 문제 (버그) 가 아니라 자연스러운 현상으로 받아들이고 검증합니다.
비용 절감: 매번 AI 결과를 완벽하게 다시 계산할 필요 (zkML 같은 복잡한 암호 기술) 가 없습니다. 의심스러운 경우에만 아주 작은 부분만 다시 확인하면 되므로 속도가 매우 빠르고 비용이 적게 듭니다.
사기 방지: 만약 누군가 모델을 몰래 바꿔서 (예: 성능이 낮은 모델로 교체) 결과를 조작하려 한다면, 그 차이는 미세한 오차 범위를 훨씬 넘어서기 때문에 TAO 가 바로 잡아냅니다.

📝 한 줄 요약

"TAO 는 AI 결과를 '완벽한 복사본'이 아니라 '합리적인 오차 범위 내의 결과'로 인정하며, 의심스러운 경우 전체를 다시 확인하는 대신 논리적으로 가장 작은 부분만 찾아내어 심판하는 똑똑한 검증 시스템입니다."

이 시스템을 통해 우리는 신뢰할 수 있는 AI 서비스를 더 저렴하고 빠르게 이용할 수 있게 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

TAO: 부동소수점 신경망을 위한 허용 오차 인식 낙관적 검증 기술 요약

이 논문은 TAO (Tolerance-Aware Optimistic Verification) 를 제안합니다. TAO 는 이기종 가속기 (클라우드 GPU, 엣지 장치 등) 에서 실행되는 부동소수점 (Floating-Point) 신경망의 결과를 검증하기 위한 새로운 프로토콜입니다. 기존의 비트 단위 정확성 (bitwise equality) 을 요구하는 방식의 한계를 극복하고, 부동소수점 연산의 본질적인 비결정성 (non-determinism) 을 허용 오차 범위 내에서 검증하는 혁신적인 접근법을 제시합니다.

1. 문제 정의 (Problem)

현대 머신러닝 시스템은 비용 절감과 확장성을 위해 클라우드, 마켓플레이스, 엣지 가속기 등 제 3 자 인프라에 훈련 및 추론을 아웃소싱하고 있습니다. 그러나 이러한 ML-as-a-Service (MLaaS) 환경에서는 다음과 같은 심각한 문제가 존재합니다:

검증 불가능성: 사용자는 실제 실행된 모델, 처리된 입력, 그리고 결과가 의도된 계산을 정확히 반영하는지 확인할 수 없습니다.
서비스 저하 위험: 서비스 제공자가 모델을 교체하거나 (model swap), 양자화 (quantization), 그래프 재작성 (graph rewrite) 등을 통해 성능을 저하시키거나 광고 임베딩을 조작할 수 있으며, 사용자는 이를 감지할 수 없습니다.
부동소수점 비결정성: 현대 GPU 가속기는 IEEE-754 부동소수점 연산의 비결합성 (non-associativity) 과 커널 병렬 실행, 스레드 스케줄링 등으로 인해 동일한 입력과 모델이라도 하드웨어나 실행 횟수에 따라 미세하게 다른 출력을 생성합니다.
기존 기술의 한계:
- zkML (Zero-Knowledge ML): 부동소수점 연산을 필드 산술로 변환하거나 고정소수점으로 변환해야 하므로 계산 비용이 너무 높고 비실용적입니다.
- 결정적 재실행 (Deterministic Replay): 벤더 라이브러리를 포기하거나 커널 설계를 변경해야 하므로 성능 저하와 호환성 문제가 발생합니다.
- TEE (Trusted Execution Environment): 특정 벤더의 하드웨어를 신뢰해야 하며, 성능 저하와 사이드 채널 공격 위험이 있습니다.
- 복제 및 다수결: 대규모 모델의 경우 복제 비용이 너무 커서 확장성이 부족합니다.

2. 방법론 (Methodology)

TAO 는 비트 단위 정확성이 아닌, 원칙적인 허용 오차 (tolerance) 범위 내의 결과를 검증하는 낙관적 (Optimistic) 프로토콜을 사용합니다.

2.1 핵심 개념: 허용 오차 인식 검증 (Tolerance-Aware Verification)

신경망 모델은 작은 반올림 오차에 본질적으로 강건 (robust) 하므로, 사용자에게 중요한 것은 비트 단위 정확성이 아니라 모델의 의미론적 일관성입니다. TAO 는 각 연산자 (operator) 수준에서 정의된 수용 영역 (acceptance regions) 내에서 결과가 존재하면 정당한 것으로 간주합니다.

2.2 두 가지 상보적 오류 모델 (Dual Error Models)

TAO 는 검증의 엄격함과 효율성을 균형 있게 맞추기 위해 두 가지 오류 모델을 결합합니다:

이론적 IEEE-754 상한 (Theoretical Bounds): 각 연산자에 대해 입력의 함수로서 최악의 경우 (worst-case) 반올림 오차를 계산합니다. 이는 수학적으로 안전 (sound) 하지만 실제 딥러닝 워크로드에서는 지나치게 보수적 (loose) 일 수 있습니다.
실증적 백분위수 임계값 (Empirical Percentile Thresholds): 다양한 하드웨어 (A100, H100 등) 에서 오프라인으로 연산자별 오차 분포를 측정하여 calibrate 한 데이터 기반의 임계값입니다. 이는 이론적 상한보다 훨씬 엄격 (tight) 하지만 실제 하드웨어 차이를 반영합니다.

2.3 Merkle 기반 상호작용 분쟁 게임 (Interactive Dispute Game)

검증 과정은 다음과 같은 단계로 진행됩니다:

낙관적 실행 (Optimistic Execution): 제안자 (Proposer) 가 모델을 실행하고 결과에 대한 Merkle 약속 (commitment) 을 게시합니다. 도전 기간 (challenge window) 내에 이의가 없으면 결과가 확정됩니다.
분쟁 국소화 (Dispute Localization): 도전자 (Challenger) 가 결과를 재실행하여 오차가 임계값을 초과하면 분쟁을 시작합니다.
- 제안자는 계산 그래프를 Merkle 트리에 기반하여 여러 하위 그래프로 분할합니다.
- 도전자는 실증적 임계값을 기준으로 오차가 발생한 첫 번째 하위 그래프를 선택합니다.
- 이 과정은 $O(\log N)$ 번 반복되어 분쟁을 단일 연산자 (single operator) 수준으로 축소합니다.
단일 연산자 심판 (Single-Operator Adjudication): 분쟁이 하나의 연산자로 좁혀지면 다음 두 가지 중 하나로 해결됩니다:
- 이론적 상한 확인: 제안자의 결과가 이론적 IEEE-754 오차 한계를 벗어나는지 확인합니다. (저비용, 하지만 허용 오차가 큼)
- 위원회 투표 (Committee Vote): 이론적 상한 내이지만 여전히 의심스러운 경우, 소수의 위원회가 실증적 임계값을 기준으로 재실행하여 다수결로 심판합니다. (고비용, 하지만 매우 엄격함)

2.4 시스템 아키텍처

PyTorch 런타임: 그래프를 계측 (instrument), 실시간으로 이론적 상한 계산, Merkle 증명 생성 및 검증 수행.
블록체인 코디네이터 (Ethereum 스마트 컨트랙트): Merkle 루트, 분쟁 상태, 보증금 (bond), 보상/벌칙 (slashing) 을 관리.

3. 주요 기여 (Key Contributions)

경제적으로 검증 가능한 부동소수점 ML 의 의미론 정립: 비트 단위 정확성이 아닌 연산자 수준의 허용 오차를 기반으로 한 낙관적 검증 프로토콜을 설계하여, 결정성 (determinism) 없이도 경제적 최종성 (economic finality) 을 달성했습니다.
연산자 단위 오류 분석 및 적대적 공격 연구: 이론적 상한과 실증적 백분위수 프로파일을 개발하고, 이를 우회하려는 적응형 적대적 공격 (gradient-based attacks) 을 설계하여 TAO 의 견고성을 입증했습니다.
효율적이고 강력한 분쟁 해결 메커니즘: Merkle 기반의 계층적 분쟁 게임을 통해 불일치를 단일 연산자로 국소화하고, 이론적 확인과 위원회 투표를 결합하여 저비용 심판을 가능하게 했습니다.
배포 가능한 PyTorch 런타임 및 엔드 - 투 - 엔드 시스템: 기존 벤더 커널을 수정 없이 FP32 로 실행하면서도 오버헤드가 거의 없는 (0.3% 추가 지연) 실용적인 시스템을 구현하고 Ethereum 테스트넷에서 검증했습니다.

4. 실험 결과 (Results)

오차 범위 비교: Transformer 모델 (Qwen3-8B, BERT-large 등) 에서 실증적 임계값은 이론적 최악의 경우 (worst-case) 상한보다 $10^2 \sim 10^3$ 배 더 엄격했습니다.
적대적 공격 방어:
- **실증적 임계값:**精心하게 설계된 공격 하에서도 모든 모델에서 **공격 성공률 (ASR) 0%**를 기록했습니다.
- 이론적 상한만 사용 시: LLM (Qwen3-8B) 의 경우 최대 2.4% 의 공격 성공률이 관찰되어, 이론적 상한만으로는 악의적인 교란을 완전히 막기 어렵다는 것을 보여주었습니다. 이는 실증적 임계값과 위원회 투표의 필요성을 입증합니다.
성능 오버헤드:
- 낙관적 실행 단계에서 0.3% 의 지연 시간 증가만 발생했습니다 (Qwen3-8B 기준).
- 메모리 오버헤드는 네이티브 서브그래프 실행 외에 추가되지 않았습니다.
분쟁 게임 효율성: $N$ -way 분할을 통해 분쟁을 단일 연산자로 축소하는 데 필요한 라운드 수는 약 3~11 회로 매우 효율적이며, 온체인 가스 비용은 분쟁당 약 2M gas 수준으로 관리 가능합니다.

5. 의의 및 결론 (Significance)

TAO 는 확장성 (Scalability) 과 검증 가능성 (Verifiability) 사이의 오랜 딜레마를 해결합니다.

하드웨어 이기종성 수용: 특정 하드웨어나 커널에 의존하지 않고, 부동소수점 연산의 본질적인 비결정성을 인정하면서도 검증 가능한 시스템을 제공합니다.
실용성: zkML 의 높은 계산 비용이나 TEE 의 신뢰 문제를 피하면서, 기존 GPU 인프라의 성능을 유지합니다.
신뢰 회복: 사용자는 클라우드나 제 3 자에서 실행된 ML 모델이 의도된 대로 작동했음을 검증할 수 있게 되며, 서비스 제공자의 악의적인 서비스 저하 (model swap, quantization 등) 를 방지할 수 있습니다.

결론적으로 TAO 는 현실 세계의 이기종 ML 컴퓨팅 환경에서 신뢰할 수 있는 검증 메커니즘을 제공하며, 분산형 ML 마켓플레이스와 같은 미래 인프라의 핵심 기술로 자리 잡을 잠재력을 가지고 있습니다.

TAO: Tolerance-Aware Optimistic Verification for Floating-Point Neural Networks