Agentic Unlearning: When LLM Agent Meets Machine Unlearning

이 논문은 기존 파라미터 기반의 망각 기법의 한계를 극복하기 위해, 에이전트의 파라미터와 지속적 메모리 간의 상호 재오염을 방지하고 양쪽 경로를 동기화하여 통합적으로 지우는 '동기화된 백플로우 망각 (SBU)' 프레임워크를 제안합니다.

Bin Wang, Fan Wang, Pingping Wang, Jinyu Cong, Yang Yu, Yilong Yin, Zhongyi Han, Benzheng Wei

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"지능형 AI 비서 (Agent) 가 사용자의 비밀을 잊는 방법"**에 대한 혁신적인 연구를 다룹니다.

기존의 AI 는 한 번 배운 것을 지우려면 전체를 다시 공부해야 하거나, 단순히 기억을 지우는 것만으로는 충분하지 않았습니다. 이 논문은 **SBU(Synchronized Backflow Unlearning, 동기화된 역류 제거)**라는 새로운 방식을 제안합니다.

이 복잡한 기술을 쉽게 이해할 수 있도록 **'비밀을 간직한 AI 비서'**와 **'집안 정리'**에 비유해서 설명해 드리겠습니다.


1. 문제 상황: "잊으려 했지만, 다시 기억해 버린 AI"

상상해 보세요. 당신의 AI 비서가 당신의 **개인적인 비밀 (예: 특정 질병 진단명)**을 두 곳에 저장했습니다.

  1. 머릿속 (모델 파라미터): AI 가 스스로 학습한 지식.
  2. 수첩 (외부 메모리): 대화 기록, 요약본, 참고 자료 등.

기존의 방법 (단순 삭제):
사용자가 "이 비밀을 잊어줘!"라고 요청하면, 기존 AI 는 **수첩 (외부 메모리)**에서 그 내용을 지웁니다. 하지만 **머릿속 (모델)**에는 여전히 그 정보가 남아 있습니다.

  • 결과: AI 는 수첩을 비웠지만, 머릿속에 남은 기억을 바탕으로 다시 그 내용을 말해버립니다. 혹은 사용자가 "그때 그 병은 뭐였지?"라고 물으면, AI 가 머릿속 기억을 꺼내와서 다시 수첩에 적어 넣습니다.
  • 이것을 논문에서는 '역류 (Backflow)'라고 부릅니다. 지운 정보가 다시 흘러들어와서 다시 오염시키는 현상입니다.

2. 해결책: SBU (동기화된 역류 제거)

이 논문은 **"수첩과 머릿속을 동시에, 그리고 순서대로 정리해야 한다"**고 말합니다. 마치 집을 정리할 때, 먼저 쓰레기를 치우고 나서 그 자리에 새로운 것을 배치하는 것과 같습니다.

SBU 는 두 가지 핵심 전략을 동시에 사용합니다.

🧠 전략 1: 머릿속 정리 (파라미터 경로)

  • 비유: AI 의 머릿속이 너무 꽉 차서 특정 기억을 지우려 할 때, 단순히 그 기억만 지우면 다른 중요한 기억 (의학적 지식 등) 도 함께 망가질 수 있습니다.
  • 해결: AI 가 그 비밀에 대해 **"아, 그건 잘 모르겠네요. 아무거나 말해볼까요?"**라고 무작위적이고 헷갈리는 대답을 하도록 훈련시킵니다.
  • 효과: AI 가 그 비밀을 '확신'하지 못하게 만들어, 다시 기억해내지 못하도록 합니다. 하지만 다른 중요한 지식은 그대로 유지됩니다.

📓 전략 2: 수첩 정리 (메모리 경로)

  • 비유: 수첩에 적힌 내용을 지울 때, 단순히 한 줄만 지우면 안 됩니다. 그 내용에서 파생된 요약본이나 참고 자료들도 모두 지워야 합니다. 하지만 다른 사람과 공유한 내용은 지우면 안 됩니다.
  • 해결:
    1. 의존성 분석: "이 요약본은 지우려는 비밀 때문에 만들어졌나요? 아니면 다른 정보로도 만들어졌나요?"를 따져봅니다.
    2. 선택적 삭제: 오직 비밀 때문에 만들어진 것만 싹 지우고, 공유된 것은 남겨둡니다.
    3. 블랙리스트: 그 비밀이 다시 수첩에 들어오지 못하도록 '금지 목록'에 넣습니다.

⚡ 핵심: "동기화 (Synchronized)"

가장 중요한 점은 순서입니다.

  1. 먼저 수첩을 정리합니다. (비밀이 다시 꺼내지지 않게 막음)
  2. 그 다음에 머릿속을 정리합니다. (수첩이 깨끗해진 상태에서 AI 가 다시 배우지 못하게 함)

이 순서를 지키지 않으면, AI 가 수첩을 보고 다시 머릿속에 정보를 주입할 수 있기 때문입니다. 이 두 과정을 동기화하여 서로가 서로를 도와주게 만듭니다.

3. 실험 결과: 얼마나 잘 작동할까요?

연구진은 의료 분야 (환자의 비밀을 다루는 상황) 에서 이 방법을 테스트했습니다.

  • 기존 방법: 비밀을 잊으려 했지만, AI 가 여전히 그 정보를 알아맞히거나 (개인정보 유출 위험), 다른 지식을 망가뜨렸습니다.
  • SBU (이 논문):
    • 비밀은 완벽하게 잊었습니다. (유출 위험 24.8% 감소)
    • 다른 지식은 그대로 잘 유지했습니다. (정확도 90% 이상 유지)
    • 계산 비용도 적게 들었습니다.

4. 요약: 왜 이 연구가 중요한가요?

이 논문은 **"AI 가 기억을 지울 때는, 머릿속과 수첩을 따로따로 지우면 안 된다"**는 사실을 처음으로 증명했습니다.

  • 기존: "수첩만 지우면 돼!" → 실패 (머릿속 기억이 다시 튀어나옴)
  • 이 논문: "수첩을 먼저 깨끗이 치우고, 머릿속도 그 기억을 잊게 훈련하자!" → 성공

이는 의료, 법률, 금융처럼 엄청난 비밀을 다루는 AI 비서들이 사용자의 '잊을 권리 (Right to be Forgotten)'를 진정으로 존중할 수 있는 길을 열었습니다. 마치 AI 가 "네, 그건 제가 기억하지 않아요. 그리고 그 기록도 완전히 없앴어요"라고 진심으로 말할 수 있게 만든 기술입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →