Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 정말로 안전 규칙을 지켰는지, 개발자가 거짓말을 하지 않았는지 확인하는 방법"**에 대한 이야기입니다.

기존의 AI 서비스에서는 개발자가 "우리는 안전 장치를 썼어요"라고 말하면, 사용자는 그 말을 믿을 수밖에 없었습니다. 하지만 개발자가 거짓말을 하거나, 안전 장치를 우회해서 위험한 답변을 줄 수도 있죠. 이 논문은 그 문제를 해결하기 위해 **'증명 가능한 안전장치 (Proof-of-Guardrail)'**라는 시스템을 제안합니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

🍔 비유: "안전한 햄버거"와 "불량 조리사"

상상해 보세요. 당신이 햄버거 가게에 갔습니다. 가게 주인 (AI 개발자) 은 "이 햄버거는 위생 기준을 철저히 지킨 신선한 고기로 만들었습니다"라고 말합니다.

하지만 문제는, 당신은 주방을 볼 수 없다는 점입니다.

주인이 실제로 위생 장갑을 썼는지?
고기를 제대로 세척했는지?
아니면 그냥 상한 고기를 써서 "위생적입니다"라고 속였는지?

사용자는 주방 (AI 의 내부 작동 원리) 을 볼 수 없기 때문에, 개발자의 말을 믿을 수밖에 없습니다. 만약 개발자가 사기꾼이라면, 당신은 상한 고기를 먹게 될지도 모릅니다.

🛡️ 이 논문이 제안하는 해결책: "블랙박스 조리실"과 "공인된 검사증"

이 논문은 **"신뢰할 수 있는 블랙박스 조리실 (TEE)"**을 제안합니다.

블랙박스 조리실 (Trusted Execution Environment, TEE):
- 이 조리실은 유리로 된 창문이 없고, 안을 들여다볼 수 없습니다. 하지만 안에서 무슨 일이 일어나든 절대 외부로 유출되지 않습니다.
- 개발자는 자신의 비밀 레시피 (AI 모델) 를 이 조리실 안에 넣고, **반드시 지켜야 할 위생 규칙 (Guardrail, 안전 장치)**을 함께 넣습니다.
- 이 조리실은 기계적으로 작동해서, "위생 규칙을 무시하고 고기를 넣으면 문이 열리지 않는다"고 설정해 둡니다.
공인된 검사증 (Cryptographic Proof):
- 햄버거가 완성되어 나오면, 조리실은 **"이 햄버거가 위생 규칙을 100% 준수하여 만들었다"**는 **디지털 검사증 (서명)**을 함께 줍니다.
- 이 검사증은 위조할 수 없습니다. 마치 공인된 도장처럼, "이 조리실 안에서만 찍힌 도장"이기 때문입니다.
- 당신은 조리실 안을 볼 필요 없이, 이 검사증만 확인하면 "아, 이 햄버거는 정말로 위생 규칙을 지키고 만들어졌구나"라고 믿을 수 있습니다.

🚀 이 시스템이 어떻게 작동하나요?

준비: 개발자는 자신의 AI(비밀 레시피) 와 안전 규칙 (위생 기준) 을 '블랙박스 조리실'에 넣습니다.
작동: 사용자가 질문을 하면, AI 는 안전 규칙을 먼저 확인한 뒤 답변을 만듭니다.
증명: 답변이 나오면, 조리실은 **"이 답변이 안전 규칙을 통과한 후 만들어졌습니다"**라는 디지털 영수증을 함께 보냅니다.
확인: 사용자는 이 영수증을 통해 "아, 개발자가 안전 장치를 생략하지 않았구나"라고 검증할 수 있습니다.

⚠️ 하지만, 주의할 점도 있습니다 (중요!)

이 논문은 아주 중요한 경고도 함께 합니다. **"영수증이 있다는 것 = 햄버거가 100% 안전하다는 뜻은 아니다"**라는 것입니다.

규칙 자체가 틀릴 수 있음: 위생 규칙이 "고기를 50 도만 데우면 된다"고 잘못 정해져 있다면, 그 규칙을 지켰더라도 고기는 상할 수 있습니다. (AI 안전 장치의 오류)
규칙을 우회하는 사기: 사기꾼 개발자가 "위생 규칙을 지키는 척"하는 방법을 찾아내서, 실제로는 규칙을 무시하고 상한 고기를 넣을 수도 있습니다. (AI 가 안전 장치를 뚫는 'Jailbreak' 공격)

즉, 이 시스템은 **"개발자가 규칙을 무시하고 임의로 조작하지 않았는지"**는 증명해 주지만, **"규칙 자체가 완벽해서 결과가 안전한지"**까지 보장해 주지는 못합니다.

💡 결론: 왜 이것이 중요한가요?

앞으로 AI 가 우리 생활 깊숙이 들어오면, 수많은 개발자가 AI 봇을 만들 것입니다.

정직한 개발자는 이 시스템을 통해 "저는 안전합니다"라는 객관적인 증거를 보여줄 수 있어 신뢰를 얻을 수 있습니다.
사용자는 개발자의 말만 믿지 않고, 디지털 증거를 보고 안전한 AI 를 선택할 수 있게 됩니다.

마치 **"식품 안전 마크"**처럼, AI 의 답변에도 **"안전 장치 통과 마크"**를 붙여주는 시스템이라고 생각하시면 됩니다. 완벽한 안전을 보장하지는 않지만, 사기를 막고 신뢰를 쌓는 데 큰 도움이 되는 혁신적인 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

AI 에이전트가 온라인 서비스로 광범위하게 배포됨에 따라, 사용자는 에이전트 개발자가 주장하는 안전성 (Safety) 에 의존하게 됩니다. 그러나 다음과 같은 주요 위협이 존재합니다:

위장된 안전성 주장: 개발자가 실제로는 안전 장치 (Guardrail) 를 실행하지 않거나, 고의로 우회 (Jailbreak) 하여 사용자에게 거짓된 안전성을 주장할 수 있습니다.
검증의 어려움: 원격으로 배포된 에이전트의 경우, 사용자는 개발자의 시스템 프롬프트나 내부 로직을 직접 검증할 수 없습니다.
사생활 보호와 감사의 모순: 개발자는 자신의 에이전트 구현 (비밀 지식) 을 공개하여 감사받기를 원하지 않으며, 탈중앙화 환경에서는 신뢰할 수 있는 제 3 자 감시 기관이 부재합니다.

이러한 상황에서 사용자는 "해당 응답이 실제로 안전 장치를 거친 후 생성되었는지"를 검증할 수 있는 방법이 필요합니다.

2. 방법론 (Methodology)

저자들은 Proof-of-Guardrail (가드레일 증명) 이라는 시스템을 제안합니다. 이는 개발자가 특정 오픈소스 가드레일이 응답 생성 전에 실행되었음을 암호학적으로 증명할 수 있게 합니다.

핵심 기술: 신뢰 실행 환경 (TEE) 및 원격 증명 (Remote Attestation)
- TEE 활용: 개발자의 에이전트와 오픈소스 가드레일을 하드웨어 기반의 격리된 환경 (예: AWS Nitro Enclaves) 인 '엔클레이브 (Enclave)' 내에서 실행합니다.
- 원격 증명 (Attestation): TEE 는 실행된 프로그램의 해시 (측정값, Measurement) 와 입력/출력 데이터를 포함하는 암호학적으로 서명된 증명 문서 (Attestation Document, $\sigma$ ) 를 생성합니다.
- 작동 원리:
  1. 개발자는 공개된 가드레일 ( $g$ ) 과 사적인 에이전트 ( $A$ ) 를 래퍼 프로그램 ( $f$ ) 으로 묶어 TEE 에 배포합니다.
  2. 사용자의 입력 ( $x$ ) 이 들어오면, $f$ 는 가드레일을 적용하여 에이전트 $A$ 를 실행하고 응답 ( $r$ ) 을 생성합니다.
  3. TEE 는 입력과 응답을 해시한 값과 엔클레이브 측정값을 포함하여 서명된 증명 $\sigma$ 를 사용자에게 반환합니다.
  4. 사용자는 오픈소스인 $f$ 의 코드를 기반으로 기대되는 측정값과 TEE 플랫폼의 공개 키를 사용하여 $\sigma$ 를 검증합니다.
보장 사항:
- 무결성: 응답이 검증된 오픈소스 가드레일 코드를 통해 생성되었음을 보장합니다.
- 비밀성: 개발자의 사적인 에이전트 구현 ( $A$ ) 은 TEE 내부에 남아 사용자에게 공개되지 않습니다.
- 탈중앙화 검증: 제 3 자 감시 기관 없이도 사용자가 오프라인에서 직접 증명을 검증할 수 있습니다.

3. 주요 기여 (Key Contributions)

Proof-of-Guardrail 시스템 제안: 개발자가 사적인 에이전트 코드를 공개하지 않으면서도, 오픈소스 가드레일의 실행을 암호학적으로 증명하는 경량 시스템을 최초로 제안했습니다.
실제 구현 및 평가: 오픈소스 에이전트인 OpenClaw와 AWS Nitro Enclaves를 활용하여 시스템을 구현하고, 실시간 채팅 봇 (Telegram) 으로 배포하여 종단 간 (End-to-End) 실현 가능성을 입증했습니다.
위험 요소에 대한 명확한 구분: 이 시스템이 '가드레일 실행'을 증명할 수는 있지만, '안전성 (Safety)' 자체를 증명하는 것은 아님을 강조했습니다. 즉, 가드레일이 실행되더라도 가드레일 자체가 우회되거나 오류를 낼 수 있음을 지적했습니다.

4. 실험 결과 (Results)

지연 시간 (Latency) 오버헤드:
- TEE 환경에서의 가드레일 실행 및 응답 생성은 일반 배포 대비 약 25%~38% 의 지연 시간 증가를 보였습니다 (평균 34%).
- 증명 생성 (Attestation Generation) 에는 약 100ms 의 추가 지연이 발생했습니다.
- 이는 인간 사용자를 대상으로 하는 챗봇 서비스에는 수용 가능한 수준으로 판단되었습니다.
비용:
- TEE 인스턴스 (m5.xlarge) 는 일반 인스턴스 (t3.micro) 대비 약 18.5 배 높은 비용이 소요되었습니다. 이는 TEE 가 전체 런타임 (커널, 의존성 등) 을 메모리에 상주시켜야 하기 때문입니다.
보안성 검증:
- 시뮬레이션된 공격 (가드레일 코드 변경, 증명 문서 변조, 응답 변조 등) 에 대해 100% 탐지되었습니다. 모든 변조 시도가 증명 검증 과정에서 무효화되었습니다.
가드레일 성능:
- 실험에 사용된 가드레일 (Llama Guard3, Loki Fact Check) 은 완벽하지 않았습니다 (정밀도/재현율 약 0.5~0.9 수준). 이는 가드레일이 실행되었다는 증명이 곧 '안전한 응답'을 보장하지 않음을 의미합니다.

5. 의의 및 한계 (Significance & Limitations)

의의:
- 신뢰 기반 시장 조성: 개발자는 안전 조치를 증명함으로써 사용자의 신뢰를 얻고 파트너십을 확대할 수 있습니다.
- 사용자 보호: 사용자는 개발자의 거짓 주장으로부터 자신을 보호하고, 증명에 기반하여 에이전트를 선택할 수 있습니다.
- 사생활 보호: 에이전트의 지적 재산 (시스템 프롬프트 등) 을 공개하지 않고도 감사 가능성을 제공합니다.
한계 및 주의점 (What Not to Trust):
- 가드레일 우회 (Jailbreaking): 악의적인 개발자가 오픈소스 가드레일 코드를 알고 있다면, 이를 우회하는 공격 (Jailbreak) 을 수행할 수 있습니다. 이 경우 증명서는 유효하지만 응답은 안전하지 않을 수 있습니다.
- 가드레일의 오류: 가드레일 모델 자체가 오류를 범할 수 있습니다 (Table 3 참조).
- 결론: Proof-of-Guardrail 은 "안전한 에이전트"의 증명이 아니라, "선언된 가드레일이 실행된 에이전트"의 증명입니다. 따라서 사용자는 이를 절대적인 안전성 증명 (Proof-of-Safety) 으로 오해해서는 안 되며, 최선의 오픈소스 가드레일 (Best-practice) 과 커뮤니티 검증을 함께 고려해야 합니다.

요약

이 논문은 AI 에이전트의 안전성 검증 문제를 해결하기 위해 TEE 기반의 암호학적 증명 시스템을 제안했습니다. 이는 개발자의 사생활을 보호하면서도 가드레일 실행의 무결성을 검증할 수 있게 하지만, 가드레일 자체의 취약점이나 우회 공격 가능성으로 인해 '안전성' 그 자체를 보장하지는 않는다는 점을 명확히 구분하여 제시했습니다.

Proof-of-Guardrail in AI Agents and What (Not) to Trust from It

🍔 비유: "안전한 햄버거"와 "불량 조리사"

🛡️ 이 논문이 제안하는 해결책: "블랙박스 조리실"과 "공인된 검사증"

🚀 이 시스템이 어떻게 작동하나요?

⚠️ 하지만, 주의할 점도 있습니다 (중요!)

💡 결론: 왜 이것이 중요한가요?

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 한계 (Significance & Limitations)

요약

유사한 논문

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem