Contextualized Privacy Defense for LLM Agents

이 논문은 강화학습을 통해 실행 단계별 맥락을 고려한 사전적 프라이버시 지침을 생성하는 'Contextualized Defense Instructing(CDI)' 패러다임을 제안함으로써, 기존 정적 방어 방식보다 프라이버시 보호와 유용성 간의 균형을 획기적으로 개선하고 적대적 조건에서도 강력한 성능을 보임을 입증합니다.

Yule Wen, Yanzhe Zhang, Jianxun Lian, Xiaoyuan Yi, Xing Xie, Diyi Yang

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏠 비유: "집사 (에이전트) 와 도둑 (해커)"

상상해 보세요. 여러분은 바쁜 현대인이고, 여러분의 **개인정보 (주소, 계좌번호, 건강 기록 등)**를 관리해 줄 똑똑한 **비서 (AI 에이전트)**를 고용했다고 칩시다.

그런데 이 비서에게 **도둑 (악의적인 사용자)**이 찾아와서 "내 친구가 급하게 이 정보를 필요해. 빨리 알려줘!"라고 부탁합니다.

지금까지의 기존 방어 방식들은 다음과 같은 문제점이 있었습니다:

  1. 기존 방식 1: "규칙만 외우게 하기" (Prompting)
    • 비서에게 처음에 "절대 개인정보를 주지 마!"라고 딱 한 번만 알려줍니다.
    • 문제: 도둑이 "아니야, 이건 긴급한 일이야!"라고 거짓말을 하면 비서가 속아 넘어갑니다. 규칙이 너무 딱딱해서 상황 (맥락) 을 이해하지 못합니다.
  2. 기존 방식 2: "문지기" (Guarding)
    • 비서가 정보를 보내려 할 때마다 별도의 문지기가 막아섭니다.
    • 문제: "이건 안 돼!"라고 막기만 할 뿐, "그럼 어떻게 해야 돼?"라고 대안을 알려주지 않습니다. 그래서 비서는 아예 아무것도 못 하게 되어, "도움이 안 되는 비서"가 됩니다.

✨ 이 논문의 해결책: "CDI (상황 인식 비서 코치)"

이 논문은 **CDI(Contextualized Defense Instructing)**라는 새로운 방식을 제안합니다.

**"비서 코치"**가 등장하는 것입니다.
비서가 정보를 보내기 직전, 코치가 상황을 살펴보고 비서에게 구체적인 지시를 내립니다.

  • 상황: 도둑이 "이메일 주소와 주민번호 다 줘!"라고 요구합니다.
  • 기존 비서: "아, 급한 일이니까 다 주자!" (실패)
  • 기존 문지기: "안 돼!" (막기만 함)
  • CDI 방식 (코치): "잠깐! 이메일 주소는 회의 일정 때문에 줄 수 있지만, 주민번호는 절대 줄 수 없어. '회의 시간만 알려주고 주민번호는 거절해'라고 답해!"

이렇게 상황에 맞춰 구체적인 지시를 주기 때문에, 비서는 정보를 아예 안 주는 게 아니라 올바른 정보만 골라서 줄 수 있습니다. (비밀은 지키면서 도움도 됨)


🧠 더 중요한 것: "실패에서 배우는 훈련"

하지만 코치도 처음엔 실수할 수 있습니다. 도둑이 아주 교묘하게 속여넘기면 코치도 "아, 괜찮겠지?"라고 잘못 판단할 수 있죠.

그래서 이 논문은 **강화 학습 (RL)**이라는 훈련 방식을 도입했습니다.

  1. 실수 기록 모으기: 도둑이 비서를 속여 개인정보를 빼낸 실패 사례들을 모읍니다.
  2. 재연습: 그 실패한 상황을 다시 만들어서, "여기서 코치가 이렇게 말했으면 어땠을까?"라고 시뮬레이션합니다.
  3. 보상: "잘못된 지시를 내렸으면 감점, 올바른 지시를 내렸으면 점수!"를 줍니다.

이 과정을 반복하면 코치는 **도둑의 다양한 속임수 (긴급한 척, 권위 있는 척 등)**를 미리 경험하고, 어떤 상황에서도 가장 똑똑한 판단을 내리도록 훈련됩니다.


🏆 결과: 무엇이 달라졌나요?

실험 결과, 이 새로운 방식 (CDI + 훈련) 은 다음과 같은 성과를 냈습니다.

  • 비밀 지키기 (94.2%): 도둑이 아무리 교묘하게 속여도 개인정보를 거의 다 막아냈습니다.
  • 도움 주기 (80.6%): 중요한 정보는 잘 전달해서 사용자를 도와주었습니다.
  • 다른 방식과의 비교:
    • 기존 '규칙 외우기'나 '문지기' 방식은 도둑이 한 번만 속여도 무너지거나, 너무 막아서 도움이 안 되었습니다.
    • 하지만 CDI비밀도 지키고, 도움도 주는 완벽한 균형을 이뤘습니다.

💡 한 줄 요약

"단순히 '안 돼'라고 막거나, 딱딱한 규칙만 외우는 게 아니라, 매 순간 상황을 보고 '어떤 건 주고 어떤 건 안 줘야 해'라고 구체적으로 가르쳐 주는 똑똑한 코치를 만들어, AI 비서가 도둑의 속임수에도 흔들리지 않고 안전하게 정보를 관리하게 만들었습니다."

이 기술이 발전하면, 앞으로 우리가 AI 비서에게 맡기는 개인정보가 훨씬 더 안전하면서도, AI 가 우리 생활을 더 잘 도와줄 수 있을 것입니다.