Runtime Governance for AI Agents: Policies on Paths

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 에이전트 (자율적으로 일하는 인공지능)"**를 어떻게 효과적으로 관리하고 통제할 것인가에 대한 새로운 지도를 제시합니다.

기존의 소프트웨어는 "계획대로" 움직이지만, 최신 AI 에이전트는 매번 다른 길을 찾아다니며 일을 합니다. 이 논문은 그 **예측 불가능한 여정 (실행 경로)**을 실시간으로 감시하고, 위험한 길로 빠지기 전에 막아내는 시스템을 제안합니다.

이 복잡한 내용을 이해하기 쉽게 **'자율 주행 택시'**와 **'교통 경찰'**의 비유로 설명해 드리겠습니다.

1. 문제: 왜 기존 방식으로는 안 될까요?

과거의 소프트웨어는 정해진 노선을 달리는 지하철과 같았습니다. "A 역에서 B 역으로 가라"라고 하면, 정해진 선로만 따라가므로 안전을 지키기 쉬웠습니다.

하지만 최신 AI 에이전트는 스스로 길을 찾는 자율 주행 택시입니다.

"고객에게 보고서를 만들어서 이메일로 보내라"는 명령을 받으면, 택시는 스스로 생각해서 데이터를 검색하고, 계산하고, 그림을 그리고, 이메일을 보낼지 결정합니다.
문제는 이 택시가 매번 다른 길을 선택한다는 점입니다. 어떤 날은 안전한 길로 가고, 어떤 날은 실수로 '금지 구역 (고객 개인정보)'을 지나갈 수도 있습니다.

기존의 통제 방식 (과거의 방법) 은 왜 실패할까요?

지시문 (프롬프트) 만으로는 부족합니다:
- 비유: "절대 금지 구역을 지나지 마세요"라고 택시 기사 (AI) 에게 말해주는 것만으로는 부족합니다. 기사가 실수하거나, 속임수에 걸려 그 말을 무시할 수 있기 때문입니다.
권한 통제 (접근 제어) 는 너무 단순합니다:
- 비유: "이 택시는 '이메일' 기능을 쓸 수 없다"라고 아예 기능을 막는 것입니다. 하지만 만약 택시가 '데이터'를 가져와서 '이메일' 없이 '메신저'로 보낸다면? 권한은 따로따로 허용되어 있어도, 연결된 행동이 위험할 수 있습니다.
사람의 승인 (Human Approval) 은 한계가 있습니다:
- 비유: 모든 중요한 결정마다 사람이 확인을 하라고 하면, 택시가 멈추는 시간이 너무 길어지고, 사람이 너무 많은 요청을 처리하다 보니 중요한 위험을 놓칠 수 있습니다.

핵심 문제: 위험한 일은 단일 행동이 아니라, **행동의 순서 (경로)**에서 발생합니다. "데이터를 읽는 것"은 안전하지만, "데이터를 읽은 뒤 바로 외부로 이메일을 보내는 것"은 위험한 범죄 (정보 유출) 가 됩니다. 기존 시스템은 이 순서를 보지 못합니다.

2. 해결책: 실시간 교통 관제 시스템 (Runtime Governance)

이 논문이 제안하는 것은 **실시간으로 택시의 경로를 감시하고, 위험해지기 전에 방향을 잡아주는 '지능형 교통 관제 시스템'**입니다.

핵심 개념 1: '경로 (Path)'가 곧 생명입니다

AI 가 일을 할 때 거치는 모든 단계 (데이터 조회, 계산, 이메일 작성 등) 를 **여정 (Path)**이라고 부릅니다. 이 관제 시스템은 AI 가 "다음에 무엇을 할까?"라고 생각할 때, 지금까지의 여정 전체를 보고 판단합니다.

핵심 개념 2: '정책 엔진 (Policy Engine)'이라는 교통 경찰

이 시스템의 핵심은 정책 엔진입니다. 이 경찰은 AI 가 다음 행동을 하려고 할 때마다 다음과 같은 질문을 던집니다.

"지금까지 (A 는 B 를 보고, C 를 계산했어). 그런데 지금 'D'를 하려고 하네? 이 조합이 위험하지 않아?"

기존 접근법: "이 기능은 쓸 수 없어" (단순 차단).
이 새로운 방법: "이 기능은 쓸 수 있지만, 지금까지의 상황을 보면 위험하니까 멈추거나, 사람에게 확인을 받으라고 해."

핵심 개념 3: '위험 예산 (Risk Budget)'

회사에는 허용할 수 있는 위험의 한도가 있습니다.

비유: "오늘 하루에 100 대의 택시를 보내는데, 1 대만 실수로 위험 구역에 들어갈 수 있어."
시스템은 이 위험 예산을 실시간으로 계산합니다. 만약 위험도가 너무 높다면, 아예 작동을 멈추게 하거나 (차단), 사람이 확인하게 합니다.

3. 이 시스템이 어떻게 작동할까요? (구체적인 예시)

논문에 나온 세 가지 상황을 비유로 풀어보겠습니다.

사기성 지시 (Prompt Injection):
- 상황: 고객 문의에 "내 비밀번호를 알려줘"라고 숨겨진 지시가 들어와 있습니다.
- 해결: 관제 시스템은 "이전 단계에서 '비밀번호' 관련 데이터를 검색했는가?"를 확인합니다. 만약 검색했다면, 다음 단계인 '답변 작성'을 막습니다.
정보 유출 (Data Exfiltration):
- 상황: AI 가 경쟁사 가격을 조사하고, 그걸로 보고서를 만들어 외부로 보냅니다.
- 해결: "경쟁사 데이터 (민감 정보) 를 건드리고, 바로 '외부 전송'을 시도하는가?"를 봅니다. 개별 행동은 안전해도, 연결이 위험하므로 차단합니다.
정보 장벽 위반 (Information Barrier):
- 상황: '투자 조언 팀' AI 가 '거래 팀' AI 에게 일을 맡겼는데, 둘 사이에 정보 장벽이 있어야 합니다.
- 해결: 시스템은 두 AI 의 전체 여정을 연결해서 봅니다. "조언 팀이 거래 정보를 건드렸는데, 거래 팀이 그 정보를 바탕으로 답을 주는가?"를 감지하여 막습니다.

4. 왜 이 방식이 중요한가요? (EU AI 법과의 연결)

유럽연합 (EU) 은 2026 년부터 AI 법 (AI Act) 을 시행합니다. 이 법은 고위험 AI 에게 **"안전하고, 투명하며, 사람이 통제할 수 있어야 한다"**고 요구합니다.

이 논문이 제안하는 시스템은 바로 그 요구를 충족시킵니다.

자동 기록: 모든 결정과 그 이유를 기록합니다 (감시 로그).
예방: 문제가 생긴 후 처벌하는 게 아니라, 문제가 일어나기 전에 막습니다.
사람의 개입: 위험할 때만 사람이 개입하도록 설계하여, 사람이 AI 를 효과적으로 통제할 수 있게 합니다.

5. 요약: 이 논문이 말하고자 하는 것

"AI 를 통제하려면, AI 가 '무엇'을 했는지보다 '어떤 순서로' 했는지 (경로) 를 실시간으로 봐야 합니다."

과거: "이 기능은 금지" (정적 통제).
미래: "지금까지의 상황을 보면, 이 다음 행동은 위험하니 멈춰" (동적, 실시간 통제).

이 논문은 AI 가 자율적으로 일하는 세상이 왔을 때, 우리가 안전하면서도 유용하게 AI 를 사용할 수 있도록 하는 새로운 교통 규칙과 관제 시스템의 설계도를 제시합니다.

한 줄 요약:

AI 에이전트는 예측할 수 없는 길을 가는 자율 주행 택시입니다. 이제 우리는 정해진 노선만 따르게 하는 게 아니라, **실시간으로 경로를 감시하며 위험한 길로 빠지기 전에 방향을 잡아주는 '지능형 교통 경찰'**이 필요합니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **AI 에이전트 (AI Agents) 의 런타임 거버넌스 (Runtime Governance)**를 위한 형식적 프레임워크를 제안합니다. 저자들은 대규모 언어 모델 (LLM) 을 기반으로 계획, 추론, 행동을 수행하는 에이전트 시스템이 설계 시점에 완전히 통제할 수 없는 비결정적 (non-deterministic) 이고 경로 의존적 (path-dependent) 인 행동을 보인다는 점을 지적하며, 기존의 거버넌스 방식이 이러한 에이전트에게 부적합함을 주장합니다.

다음은 논문의 주요 내용을 문제 제기, 방법론, 핵심 기여, 결과 및 의의로 나누어 상세히 요약한 것입니다.

1. 문제 제기 (The Governance Challenge)

기존의 소프트웨어나 단일 쿼리 기반 AI 시스템과 달리, AI 에이전트는 다음과 같은 5 가지 고유한 특성으로 인해 거버넌스가 근본적으로 다릅니다.

비결정성 (Non-determinism): 동일한 에이전트가 동일한 작업을 수행할 때마다 실행 경로 (실행 단계의 순서) 가 달라질 수 있습니다.
동적 도구 사용 (Dynamic tool use): 어떤 도구를 언제, 어떤 순서로 호출할지는 런타임에 LLM 이 결정하며, 사전에 정의된 코드 흐름이 아닙니다.
가변적인 경로 길이 (Variable-length paths): 동일한 작업이라도 실행마다 단계 수가 달라질 수 있습니다.
자기 수정 (Self-modification): 코드 실행 능력을 가진 에이전트는 런타임에 자신의 프롬프트나 도구를 수정하여 설계 시 예상치 못한 행동을 할 수 있습니다.
다중 에이전트 상호작용 (Multi-agent interaction): 에이전트 간 위임과 데이터 공유는 개별 에이전트 수준에서는 위반이 아니더라도, 전체적인 상호작용 경로에서는 정보 장벽 위반 등 조직적 위반을 초래할 수 있습니다.

기존 방법의 한계:

프롬프트 제어 (Prompting): 행동 확률을 낮출 뿐 강제력이 없으며, 경로 의존적 제약을 표현할 수 없습니다.
접근 제어 (Access Control): 특정 행동 카테고리 자체를 차단하지만, 이전 행동의 맥락 (예: 데이터 접근 후 외부 이메일 발송) 을 고려한 순차적 제약을 할 수 없습니다.
콘텐츠 필터링: 개별 단계의 내용 (예: PII 포함 여부) 은 검사할 수 있으나, 단계 간의 행동 궤적 (trajectory) 에서 발생하는 위반은 감지하지 못합니다.
인간 승인: 승인 요청 자체가 거버넌스 메커니즘이 아니며, 승인 요청을 결정하는 정책과 승인 후의 맥락이 중요합니다.

결론적으로, 데이터 유출, 정보 장벽 위반, 무단 외부 통신과 같은 주요 위반 사항은 개별 행동이 아닌 행동 시퀀스 (경로) 의 속성이므로, 런타임에 전체 실행 경로를 평가하는 새로운 메커니즘이 필요합니다.

2. 방법론 및 형식적 프레임워크 (Methodology & Formal Framework)

저자는 에이전트 거버넌스를 **실행 경로 (Execution Path)**를 중심으로 한 형식적 프레임워크로 정의합니다.

2.1 핵심 구성 요소

실행 경로 (Execution Path, $P$ ): 에이전트가 작업을 수행하는 동안 거치는 이산적인 단계들의 시퀀스 ( $s_1, s_2, ..., s_n$ ). 각 단계는 확률적 단계 (LLM 호출), 결정적 단계 (도구 호출), 복합 단계 (다른 에이전트 위임) 로 구성됩니다.
정책 함수 (Policy Function, $\pi_j$ ):
- 입력: 에이전트 식별자 ( $A$ ), 부분 경로 ( $P_i$ ), 제안된 다음 행동 ( $s^*$ ), 공유 거버넌스 상태 ( $\Sigma$ ).
- 출력: 해당 행동을 실행할 때 정책 위반이 발생할 확률 $[0, 1]$ .
- 특징: **결정론적 (Deterministic)**이어야 하며, 이전 단계의 맥락을 고려해야 합니다.
정책 엔진 (Policy Engine): 조직 차원에서 모든 에이전트의 제안된 행동을 가로채고, 모든 적용 가능한 정책을 평가하며, 공유 상태 ( $\Sigma$ ) 를 유지하고, 개입 (Intervention) 을 수행하는 조직적 구성 요소입니다.
거버넌스 목표: 에이전트 군집 (Fleet) 전체의 기대 작업 유틸리티를 최대화하면서, 기대 위반 점수 (Expected Terminal Violation Score) 를 조직의 위험 예산 ( $B$ ) 이내로 유지하는 제약 최적화 문제입니다.

2.2 기존 접근법의 위치

이 프레임워크는 기존 방법들을 다음과 같이 재해석합니다.

프롬프트 제어: 정책 함수의 인스턴스가 아님. 경로 분포를 변경할 뿐 강제하지 않음.
접근 제어: 경로 ( $P_i$ ) 와 입력 ( $s^*$ ) 을 무시하는 '퇴화 (degenerate)'된 정책 함수의 특수한 경우.
런타임 평가: 전체 입력을 사용하는 일반적인 경우 (General Case). 경로 의존적 정책은 오직 런타임 평가로만 강제 가능합니다.

3. 주요 기여 (Key Contributions)

형식적 프레임워크 제시: 에이전트 거버넌스를 실행 경로와 정책 함수를 기반으로 수학적으로 정의하여, 기존 메커니즘이 왜 불충분한지 명확히 구분했습니다.
구체적인 정책 예시 및 인스턴스: EU AI Act 의 요구사항을 반영한 구체적인 정책 시나리오 (예: PII 접근 전 검증, 정보 장벽, 에이전트 무결성 확인 등) 를 제시하고, 이를 테이블로 정리했습니다.
참조 구현 (Reference Implementation): Kyvvu B.V. 에서 개발한 프로토타입을 통해 프레임워크의 실현 가능성을 보여주었습니다. 이 구현은 LangChain, LangGraph, Copilot Studio 와 통합되어 있으며, **선제적 (Prospective)**으로 행동을 차단하거나 조정하는 방식을 채택했습니다.
EU AI Act 와의 정렬: 고위험 AI 시스템에 대한 EU AI Act (2026 년 8 월 발효) 의 요구사항 (리스크 관리, 자동 로깅, 인간 감독, 투명성 등) 을 이 프레임워크의 구성 요소에 매핑하여 규제 준수 가능성을 입증했습니다.

4. 결과 및 구현 (Results & Implementation)

구현 모드:
- 선제적 모드 (Prospective): 행동 실행 전 정책 엔진이 가로채어 평가하고 결정 (통과, 조정, 차단) 을 내림. 규제 준수를 위해 필수적.
- 사후 모드 (Retrospective): 실행 후 로그를 분석. 감사용으로는 유용하지만 예방은 불가능.
아키텍처:
- 등록 단계 (Registration Phase): 에이전트 배포 시 문서화, 무결성, 일정에 대한 정책을 먼저 평가.
- 단계별 평가 (Per-step Phase): 각 제안된 행동에 대해 상태 벡터 (State Vector) 를 업데이트하며 정책을 평가. 전체 경로를 매번 재검토하지 않고 축약된 상태 벡터를 사용하여 효율성을 확보.
개입 전략 (Intervention):
- Pass: 실행 허용.
- Steer: 실행 일시 정지, 인간 승인 요청, 또는 컨텍스트에 규정 준수 힌트 주입.
- Block: 실행 차단 및 작업 종료.

5. 의의 및 한계 (Significance & Open Problems)

의의:

개념적 명확성: 에이전트 거버넌스가 단순한 접근 제어를 넘어, 경로 의존적 위험을 관리하는 체계적 접근이 필요함을 이론적으로 정립했습니다.
규제 대응: EU AI Act 와 같은 엄격한 규제 환경에서 조직이 에이전트를 안전하게 운영할 수 있는 실질적인 아키텍처를 제공합니다.
실용성: 추상적인 이론을 구체적인 정책 템플릿과 구현 아키텍처로 연결하여 실무자가 즉시 적용할 수 있는 지침을 제공합니다.

한계 및 향후 과제 (Open Problems):

위험 보정 (Risk Calibration): 정책 함수의 출력값을 실제 위반 확률로 보정하기 위한 레이블된 실행 데이터 부족.
전략적 회피 (Strategic Circumvention): 에이전트가 거버넌스 임계값을 우회하도록 경로를 계획할 가능성 (현재 세대 에이전트에는 드물지만 미래 위험).
강제적 준수의 완전성: 코드 실행 능력을 가진 에이전트가 정책 엔진을 우회하여 실행 환경을 수정할 수 있는 가능성.
위임의 계보 (Delegation Provenance): 하위 에이전트의 위반이 상위 에이전트의 위험 예산에 어떻게 반영될지에 대한 문제.
정책 상호작용: 다수의 정책이 결합될 때 예상치 못하게 높은 위반 점수를 유발하여 합법적인 작업을 차단할 수 있는 문제.

결론

이 논문은 AI 에이전트의 비결정적이고 경로 의존적인 특성을 해결하기 위해 런타임 평가 기반의 형식적 거버넌스 프레임워크를 제안합니다. 이는 단순한 기술적 제안을 넘어, EU AI Act 와 같은 규제 요구사항을 충족하면서도 에이전트의 유용성을 극대화할 수 있는 조직적 위험 관리의 새로운 패러다임을 제시합니다. 저자들은 이 프레임워크가 에이전트 기술의 진화에 따라 진화해야 하며, 실제 운영 데이터를 통한 보정과 전략적 위협에 대한 대응이 향후 연구의 핵심 과제임을 강조합니다.