AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "결국엔 잘했으니 괜찮지?"라는 착각

우리가 AI 비서에게 "내 일정 확인해서 내일 회의 시간 알려줘"라고 시켰다고 가정해 봅시다.

기존 평가 방식: AI 가 "내일 오후 3 시에 회의가 있습니다"라고 정확히 답하면, "완벽하다! 성공!"이라고 치켜세웠습니다.
실제 상황: 하지만 AI 는 그 일을 하느라 내 이메일을 켜고, 캘린더를 뒤지고, 심지어 내 개인적인 건강 기록 (예: 불임 치료 일정) 이나 비밀스러운 금융 정보까지 일시적으로 읽었을지도 모릅니다. AI 가 최종 답변을 줄 때만 그 민감한 정보를 빼고 깔끔하게 정리했다면, 우리는 그 위험을 전혀 모릅니다.

비유:

마치 집에 손님이 왔는데, 손님이 주방을 지나며 냉장고 안의 모든 음식과 가족의 비밀 일기를 훑어보고, 결국 "오늘 날씨가 좋네요"라고 인사만 하고 떠난다고 상상해 보세요.
손님이 "인사만 하고 갔으니 괜찮다"고 생각할 수 있지만, 사실은 집 안의 모든 사생활이 노출된 것입니다. 기존 평가는 '인사'만 보고 "손님이 예의 바르다"고 판단한 셈입니다.

2. 새로운 도구: "Privacy Flow Graph (정보 흐름 지도)"

이 논문은 AI 가 일을 하는 모든 과정을 추적할 수 있는 새로운 지도를 만들었습니다. 이를 **'정보 흐름 지도 (Privacy Flow Graph)'**라고 부릅니다.

어떻게 작동하나요?
AI 가 일을 할 때, 정보가 어디에서 어디로 이동하는지 단계별로 기록합니다.
1. 사용자 → AI: 내가 무엇을 요청했나? (과도한 정보를 줬나?)
2. AI → 도구: AI 가 어떤 도구를 썼나? (불필요한 정보를 다 가져왔나?)
3. 도구 → AI: 도구가 AI 에게 무엇을 돌려줬나? (개인적인 정보까지 섞여 왔나?)
4. AI → 결과물: 최종 답안에 무엇이 들어갔나?

이 지도를 보면, 최종 답변은 깨끗해도, 중간 과정에서 AI 가 불필요하게 민감한 정보를 '들여다본' 흔적을 바로 찾아낼 수 있습니다.

3. 실험 결과: "의외로 위험하다!"

연구진은 7 개의 최신 AI 모델 (OpenAI, Anthropic 등) 을 이 새로운 지도로 테스트했습니다. 결과는 충격적이었습니다.

결과: AI 가 일을 잘해낸 경우 (성공률 60~80%) 가 많았지만, 사생활 침해 사고는 80% 이상의 경우에서 발생했습니다.
중요한 발견: 최종 답변이 깨끗해 보인 경우조차, 중간 단계에서 이미 민감한 정보가 유출되거나 불필요하게 접근된 경우가 대부분이었습니다.
가장 위험한 순간:
- 사용자의 요청: 사용자가 너무 많은 정보를 말해버리는 경우.
- 도구의 응답: 캘린더나 이메일 앱이 AI 에게 '일정'만 주는 게 아니라, '개인적인 건강 기록'까지 함께 보내주는 경우. (이게 가장 큰 문제였습니다.)

비유:

레스토랑 주문을 생각해 보세요.
고객이 "스테이크 한 개 주세요"라고 주문하고, 웨이터가 "네, 알겠습니다"라고 답하며 스테이크만 가져옵니다. (최종 결과: OK)
하지만 웨이터가 주방으로 가면서 냉장고 문을 열어 모든 식재료를 훑어보고, 주방장이 고객의 건강 기록을 보고 스테이크를 고르는 과정에서 실수로 그 기록을 테이블에 올려놓았다가 다시 치웠다면?
우리는 "스테이크만 왔으니 괜찮다"고 생각하지만, 사실은 고객의 사생활이 주방 전체에 공개된 것입니다. 이 연구는 바로 그 '중간 과정'의 위험을 잡아낸 것입니다.

4. 결론: "결과만 보면 안 된다"

이 논문은 우리에게 중요한 메시지를 줍니다.

기존의 생각: "AI 가 최종 답을 잘 줬으니 안전해."
새로운 생각: "AI 가 일을 하는 전 과정에서 내 정보가 어떻게 다뤄졌는지 확인해야 안전해."

요약하자면:
AI 비서가 우리의 일을 대신할 때, 우리는 단순히 "일 잘했나?"만 묻지 말고, **"내 정보를 어디까지 들여다봤나?"**까지 확인해야 합니다. 이 연구는 AI 가 일을 하는 모든 단계를 감시할 수 있는 새로운 기준 (AgentSCOPE) 을 제시하여, 우리가 더 안전한 AI 세상을 만들 수 있도록 도와줍니다.

이제 AI 비서를 쓸 때, "결과는 깨끗하더라도, 중간에 내 비밀을 훑어보지 않았는지"를 의심해 봐야 한다는 뜻입니다!

Each language version is independently generated for its own context, not a direct translation.

논문 요약: AgentSCOPE (에이전트 스코프)

1. 문제 정의 (Problem)

최근 에이전트 AI 시스템은 사용자의 이메일, 캘린더, 클라우드 드라이브 등에 대한 광범위한 읽기 권한을 가지고 사용자를 대신하여 복잡한 작업을 수행합니다. 그러나 기존 프라이버시 평가는 주로 **입력 (Instruction) 과 최종 출력 (Final Output)**의 경계에만 집중하여, 에이전트 실행 과정에서 발생하는 **중간 단계의 정보 흐름 (Intermediate Information Flows)**을 간과하고 있습니다.

핵심 문제: 에이전트가 작업을 성공적으로 완료했더라도, 도구 (Tool) 쿼리, 도구 응답, 중간 추론 과정에서 민감한 정보가 불필요하게 유출되거나 오용될 수 있습니다.
현재의 한계: 기존 벤치마크 (SWE-bench, $\tau$ -bench 등) 는 작업 성공률이나 도구 사용 능력을 측정할 뿐, 맥락적 프라이버시 규범 (Contextual Privacy Norms) 이 준수되었는지 평가하지 않습니다. 또한, PrivacyLens 와 같은 기존 연구는 최종 출력만 평가하거나 단일 경계에서만 작동하여, 에이전트가 도구를 과도하게 호출하거나 도구가 불필요한 민감 데이터를 반환하는 등의 중간 단계 위반을 포착하지 못합니다.

2. 방법론 (Methodology)

이 논문은 에이전트 워크플로우의 모든 경계를 프라이버시 위반의 잠재적 지점으로 간주하고, 이를 평가하기 위한 새로운 프레임워크와 벤치마크를 제안합니다.

가. 프라이버시 흐름 그래프 (Privacy Flow Graph, PFG)

개념: Contextual Integrity (CI, 맥락적 무결성) 이론을 기반으로 에이전트 워크플로우를 명시적인 정보 전달 이벤트의 시퀀스로 모델링합니다.
구조: 사용자 (User), 에이전트 (Agent), 외부 도구 (External Tools), 하위 수신자 (Downstream Recipients) 간의 4 가지 주요 행위자 간 정보 흐름을 그래프로 표현합니다.
주석 (Annotation): 각 정보 흐름 (에지) 에는 CI 의 5 가지 파라미터 (발신자, 수신자, 주제, 데이터 유형, 전송 원칙) 를 주석으로 달아, 해당 경계에서의 정보 흐름이 맥락적 규범을 준수하는지 개별적으로 평가합니다.
기능:
- 필수 vs 비필수 정보 구분: 작업 수행에 필수적인 정보와 불필요하게 수집/전파된 민감 정보를 구분합니다.
- 위반 원인 추적: 최종 출력에서 민감 데이터가 발견되었을 때, 그것이 사용자의 과도한 입력, 에이전트의 광범위한 쿼리, 도구의 과도한 응답 중 어디에서 기인했는지 추적합니다.
- 비관측 위반 탐지: 최종 출력에는 나타나지 않았더라도 중간 단계 (예: 도구 응답 단계) 에서 발생한 불필요한 데이터 접근이나 노출을 감지합니다.

나. AgentSCOPE 벤치마크

구성: 가상의 사용자 'Emma'와 그녀의 에이전트 어시스턴트를 중심으로 한 62 개의 다중 도구 시나리오로 구성됩니다.
범위: 의료, 금융, 법률, 고용, 생식 건강 등 8 가지 규제 도메인의 프라이버시 규범을 반영합니다.
특징: 각 시나리오마다 파이프라인의 모든 단계 (지시, 쿼리, 응답, 출력) 에 대한 **Ground Truth(정답)**를 제공합니다. 에이전트가 실제 환경을 실행하여 생성한 트래젝토리를 기반으로 PFG 를 구축하여 평가합니다.

다. 평가 지표

TSR (Task Success Rate): 작업 성공률 (유용성 측정).
LR (Leak Rate): 최종 출력에서의 명시적 프라이버시 유출 비율.
PVR (Pipeline Violation Rate): 중간 단계를 포함한 전체 파이프라인에서의 부적절한 정보 흐름 비율.
VOR (Violation Origin Rate): 최종 출력 위반이 이전 단계의 실패로 인한 것인지 추적하는 비율.

3. 주요 결과 (Key Results)

OpenAI 와 Anthropic 의 7 가지 최신 LLM 기반 에이전트 모델을 AgentSCOPE 로 평가한 결과는 다음과 같습니다.

높은 작업 성공률 vs 높은 프라이버시 위반: 모델들은 평균 63~79% 의 높은 작업 성공률 (TSR) 을 보였으나, 이는 프라이버시 대가를 치른 결과였습니다.
출력 평가의 한계: 최종 출력만 평가했을 때 (LR) 의 위반률은 24~40% 로 상대적으로 낮게 나타났습니다.
파이프라인 전체 평가의 충격: PFG 를 통해 전체 파이프라인을 평가한 결과, **Pipeline Violation Rate (PVR) 는 82~94%**로 급증했습니다. 즉, 80% 이상의 시나리오에서 중간 단계에서 적어도 하나의 맥락적 무결성 위반이 발생했습니다.
위반 발생 단계:
- 응답 단계 (Response Stage): 도구 (이메일, 캘린더 등) 가 작업에 필요하지 않은 민감한 데이터를 불필요하게 반환하는 경우가 가장 많았습니다.
- 지시 단계 (Instruction Stage): 사용자가 작업을 지시할 때 불필요한 민감 정보를 포함하는 경우.
- 쿼리 단계 (Query Stage): 에이전트가 도구를 과도하게 호출하거나 잘못된 파라미터를 요청하는 경우.
평가 방법의 차이: 단순 키워드 매칭 기반 평가는 LLM 기반 CI 저지 (LLM-as-a-judge) 평가에 비해 위반률을 현저히 과소평가했습니다 (예: GPT-4.1 의 경우 키워드 61% vs LLM 저지 92%).

4. 주요 기여 (Key Contributions)

새로운 평가 패러다임: 에이전트 시스템의 프라이버시 평가가 '최종 출력'에만 국한되지 않고, **파이프라인의 모든 경계 (Input, Query, Response, Output)**를 독립적으로 평가해야 함을 주장하고 이를 입증했습니다.
Privacy Flow Graph (PFG) 프레임워크: Contextual Integrity 이론을 에이전트 실행에 적용하여 정보 흐름을 구조화하고 위반 원인을 추적할 수 있는 방법론을 제시했습니다.
AgentSCOPE 벤치마크: 각 파이프라인 단계에 대한 Ground Truth 를 제공하는 최초의 벤치마크를 공개하여, 개발자와 규제 기관이 프라이버시 보호가 설계에 의한 것인지 우연인지 구분할 수 있는 도구를 제공했습니다.

5. 의의 및 결론 (Significance)

프라이버시 위험의 재정의: 에이전트 시스템의 프라이버시 위험은 최종 메시지에 민감한 데이터가 포함되는 것뿐만 아니라, 데이터가 수집되고 처리되는 전체 과정에 내재되어 있음을 보여줍니다.
실용적 시사점: 현재 에이전트 시스템은 유용성 (Utility) 과 프라이버시 (Privacy) 가 상충 관계에 있으며, 단순히 출력만 필터링하는 방식으로는 실제 위험을 줄일 수 없습니다.
향후 방향: PFG 를 실시간 실행 중에 구축하여 개입 (Intervention) 이 가능한 온라인 배포 단계로 확장하고, 더 다양한 사용자 페르소나와 시나리오로 벤치마크를 확장하는 것이 다음 과제로 제시되었습니다.

결론적으로, 이 논문은 에이전트 AI 시대에 프라이버시 보호를 위해서는 '출력 중심'의 평가를 탈피하여 '전체 파이프라인'을 모니터링하고 평가하는 것이 필수적임을 강력하게 주장합니다.

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

1. 문제: "결국엔 잘했으니 괜찮지?"라는 착각

2. 새로운 도구: "Privacy Flow Graph (정보 흐름 지도)"

3. 실험 결과: "의외로 위험하다!"

4. 결론: "결과만 보면 안 된다"

논문 요약: AgentSCOPE (에이전트 스코프)

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 결과 (Key Results)

4. 주요 기여 (Key Contributions)

5. 의의 및 결론 (Significance)

유사한 논문

How Effective Are Publicly Accessible Deepfake Detection Tools? A Comparative Evaluation of Open-Source and Free-to-Use Platforms

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection

Impact of 5G SA Logical Vulnerabilities on UAV Communications: Threat Models and Testbed Evaluation

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing