TAO: Tolerance-Aware Optimistic Verification for Floating-Point Neural Networks

TAO 는 이기종 하드웨어에서 실행되는 부동소수점 신경망의 출력에 대한 비트 단위 일치를 요구하지 않고, 연산자 수준의 허용 오차 범위 내에서 결과를 검증하여 신뢰할 수 있는 하드웨어 없이도 확장 가능한 검증을 가능하게 하는 프로토콜입니다.

Jianzhu Yao, Hongxu Su, Taobo Liao, Zerui Cheng, Huan Zhang, Xuechao Wang, Pramod Viswanath

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍕 비유: "피자 배달과 TAO"

상상해 보세요. 당신이 **피자 (AI 모델)**를 시켰는데, 배달원이 **다른 가게 (서드파티 하드웨어)**에서 구워진 피자를 가져왔다고 합시다.

  1. 기존의 문제점 (완벽한 일치 요구):

    • 예전에는 "내 주문한 피자가 완벽하게 똑같은 모양, 똑같은 치즈 양, 똑같은 굽기 상태여야 한다"고 요구했습니다.
    • 하지만 문제는, **다른 주방 (하드웨어)**에서 같은 레시피로 피자를 구우면, 오븐의 미세한 온도 차이나 조리사의 손놀림 때문에 매우 미세하게 달라질 수밖에 없다는 점입니다.
    • 이 미세한 차이를 이유로 "피자가 가짜다!"라고 따지면, 배달원은 항의할 수밖에 없습니다. 결국 "완벽한 일치"를 요구하면 검증 자체가 불가능해지거나, 비싼 비용 (시간, 에너지) 이 듭니다.
  2. TAO 의 해결책 (허용 오차 범위):

    • TAO 는 이렇게 말합니다. "완벽하게 똑같을 필요는 없어. 다만, 치즈가 녹아내리거나 피자가 타는 정도 (허용 오차) 를 벗어나지 않으면 OK 야."
    • 이를 '오염 허용 (Tolerance-Aware)' 방식이라고 합니다.

🕵️‍♂️ TAO 가 어떻게 작동할까요? (3 단계 프로세스)

TAO 는 의심스러운 결과가 나왔을 때, 전체를 다시 다 확인하는 게 아니라 논리적으로 좁혀가는 방식을 사용합니다.

1 단계: "믿고 먼저 실행해" (낙관적 실행)

  • 상황: 배달원이 "피자 왔습니다!"라고 말합니다.
  • TAO: "알겠어. 일단 받아. 만약 10 분 안에 누가 "이거 이상해!"라고 고발하지 않으면, 너가 정직한 거로 인정하고 돈을 지불해."
  • 효과: 대부분의 경우 (99% 이상) 는 아무도 의심하지 않으므로, 검증 없이도 빠르게 서비스가 완료됩니다.

2 단계: "어디서 틀렸는지 찾아봐" (논쟁 게임)

  • 상황: 누군가 "이 피자가 너무 구워졌어!"라고 고발합니다.
  • TAO: "자, 이제 피자를 조각조각 나눠서 어디가 문제인지 찾아보자."
    • 전체 피자를 반으로 잘라보고, 문제 있는 반쪽을 다시 반으로 잘라봅니다.
    • 핵심: TAO 는 "치즈가 0.1g 차이 나는 건 괜찮지만, 10g 차이라면 문제야"라는 **미리 정해진 기준 (임계값)**을 가지고 있습니다.
    • 이 기준을 이용해 **정확히 어느 조각 (어떤 연산 단계)**에서 문제가 생겼는지 찾아냅니다.

3 단계: "최종 심판" (단일 연산자 심판)

  • 상황: 결국 치즈 한 조각 하나만 남았습니다.
  • TAO: "이 치즈 조각이 기준치 안에 들어오는지 확인해."
    • 방법 A (이론적 확인): "이론적으로 이 치즈가 이렇게 녹을 수 있어"라는 공식을 계산해 봅니다. (빠르지만 기준이 너그러울 수 있음)
    • 방법 B (실제 투표): 만약 이론적 계산이 애매하다면, 심사위원 5 명을 불러서 그 치즈 조각을 직접 보고 "이게 정상 범위야?"라고 투표하게 합니다. (정확하지만 비용이 좀 듦)
  • 결과: 만약 기준을 벗어났다면, 배달원 (공급자) 의 보증금 (예치금) 을没収하고 고발자에게 줍니다.

💡 왜 이것이 중요한가요?

  1. 하드웨어의 자유: AI 를 실행하는 칩이 NVIDIA 가 되든 AMD 가 되든, 클라우드가 되든 상관없습니다. 서로 다른 칩은 계산 결과가 미세하게 다를 수 있는데, TAO 는 이를 문제 (버그) 가 아니라 자연스러운 현상으로 받아들이고 검증합니다.
  2. 비용 절감: 매번 AI 결과를 완벽하게 다시 계산할 필요 (zkML 같은 복잡한 암호 기술) 가 없습니다. 의심스러운 경우에만 아주 작은 부분만 다시 확인하면 되므로 속도가 매우 빠르고 비용이 적게 듭니다.
  3. 사기 방지: 만약 누군가 모델을 몰래 바꿔서 (예: 성능이 낮은 모델로 교체) 결과를 조작하려 한다면, 그 차이는 미세한 오차 범위를 훨씬 넘어서기 때문에 TAO 가 바로 잡아냅니다.

📝 한 줄 요약

"TAO 는 AI 결과를 '완벽한 복사본'이 아니라 '합리적인 오차 범위 내의 결과'로 인정하며, 의심스러운 경우 전체를 다시 확인하는 대신 논리적으로 가장 작은 부분만 찾아내어 심판하는 똑똑한 검증 시스템입니다."

이 시스템을 통해 우리는 신뢰할 수 있는 AI 서비스를 더 저렴하고 빠르게 이용할 수 있게 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →