AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

이 논문은 에이전트 시스템의 프라이버시 위험이 최종 출력뿐만 아니라 파이프라인 내 모든 정보 흐름 단계에서 발생할 수 있음을 지적하며, 이를 평가하기 위해 '프라이버시 흐름 그래프' 프레임워크와 62 가지 시나리오로 구성된 'AgentSCOPE' 벤치마크를 제안하고, 실제 평가에서 대부분의 위반이 도구 응답 단계에서 발생하여 기존 출력 중심 평가가 위험을 과소평가함을 입증합니다.

Ivoline C. Ngong, Keerthiram Murugesan, Swanand Kadhe, Justin D. Weisz, Amit Dhurandhar, Karthikeyan Natesan Ramamurthy

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "결국엔 잘했으니 괜찮지?"라는 착각

우리가 AI 비서에게 "내 일정 확인해서 내일 회의 시간 알려줘"라고 시켰다고 가정해 봅시다.

  • 기존 평가 방식: AI 가 "내일 오후 3 시에 회의가 있습니다"라고 정확히 답하면, "완벽하다! 성공!"이라고 치켜세웠습니다.
  • 실제 상황: 하지만 AI 는 그 일을 하느라 내 이메일을 켜고, 캘린더를 뒤지고, 심지어 내 개인적인 건강 기록 (예: 불임 치료 일정) 이나 비밀스러운 금융 정보까지 일시적으로 읽었을지도 모릅니다. AI 가 최종 답변을 줄 때만 그 민감한 정보를 빼고 깔끔하게 정리했다면, 우리는 그 위험을 전혀 모릅니다.

비유:

마치 집에 손님이 왔는데, 손님이 주방을 지나며 냉장고 안의 모든 음식과 가족의 비밀 일기를 훑어보고, 결국 "오늘 날씨가 좋네요"라고 인사만 하고 떠난다고 상상해 보세요.
손님이 "인사만 하고 갔으니 괜찮다"고 생각할 수 있지만, 사실은 집 안의 모든 사생활이 노출된 것입니다. 기존 평가는 '인사'만 보고 "손님이 예의 바르다"고 판단한 셈입니다.

2. 새로운 도구: "Privacy Flow Graph (정보 흐름 지도)"

이 논문은 AI 가 일을 하는 모든 과정을 추적할 수 있는 새로운 지도를 만들었습니다. 이를 **'정보 흐름 지도 (Privacy Flow Graph)'**라고 부릅니다.

  • 어떻게 작동하나요?
    AI 가 일을 할 때, 정보가 어디에서 어디로 이동하는지 단계별로 기록합니다.
    1. 사용자 → AI: 내가 무엇을 요청했나? (과도한 정보를 줬나?)
    2. AI → 도구: AI 가 어떤 도구를 썼나? (불필요한 정보를 다 가져왔나?)
    3. 도구 → AI: 도구가 AI 에게 무엇을 돌려줬나? (개인적인 정보까지 섞여 왔나?)
    4. AI → 결과물: 최종 답안에 무엇이 들어갔나?

이 지도를 보면, 최종 답변은 깨끗해도, 중간 과정에서 AI 가 불필요하게 민감한 정보를 '들여다본' 흔적을 바로 찾아낼 수 있습니다.

3. 실험 결과: "의외로 위험하다!"

연구진은 7 개의 최신 AI 모델 (OpenAI, Anthropic 등) 을 이 새로운 지도로 테스트했습니다. 결과는 충격적이었습니다.

  • 결과: AI 가 일을 잘해낸 경우 (성공률 60~80%) 가 많았지만, 사생활 침해 사고는 80% 이상의 경우에서 발생했습니다.
  • 중요한 발견: 최종 답변이 깨끗해 보인 경우조차, 중간 단계에서 이미 민감한 정보가 유출되거나 불필요하게 접근된 경우가 대부분이었습니다.
  • 가장 위험한 순간:
    • 사용자의 요청: 사용자가 너무 많은 정보를 말해버리는 경우.
    • 도구의 응답: 캘린더나 이메일 앱이 AI 에게 '일정'만 주는 게 아니라, '개인적인 건강 기록'까지 함께 보내주는 경우. (이게 가장 큰 문제였습니다.)

비유:

레스토랑 주문을 생각해 보세요.
고객이 "스테이크 한 개 주세요"라고 주문하고, 웨이터가 "네, 알겠습니다"라고 답하며 스테이크만 가져옵니다. (최종 결과: OK)
하지만 웨이터가 주방으로 가면서 냉장고 문을 열어 모든 식재료를 훑어보고, 주방장이 고객의 건강 기록을 보고 스테이크를 고르는 과정에서 실수로 그 기록을 테이블에 올려놓았다가 다시 치웠다면?
우리는 "스테이크만 왔으니 괜찮다"고 생각하지만, 사실은 고객의 사생활이 주방 전체에 공개된 것입니다. 이 연구는 바로 그 '중간 과정'의 위험을 잡아낸 것입니다.

4. 결론: "결과만 보면 안 된다"

이 논문은 우리에게 중요한 메시지를 줍니다.

  • 기존의 생각: "AI 가 최종 답을 잘 줬으니 안전해."
  • 새로운 생각: "AI 가 일을 하는 전 과정에서 내 정보가 어떻게 다뤄졌는지 확인해야 안전해."

요약하자면:
AI 비서가 우리의 일을 대신할 때, 우리는 단순히 "일 잘했나?"만 묻지 말고, **"내 정보를 어디까지 들여다봤나?"**까지 확인해야 합니다. 이 연구는 AI 가 일을 하는 모든 단계를 감시할 수 있는 새로운 기준 (AgentSCOPE) 을 제시하여, 우리가 더 안전한 AI 세상을 만들 수 있도록 도와줍니다.

이제 AI 비서를 쓸 때, "결과는 깨끗하더라도, 중간에 내 비밀을 훑어보지 않았는지"를 의심해 봐야 한다는 뜻입니다!