Agentic Unlearning: When LLM Agent Meets Machine Unlearning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"지능형 AI 비서 (Agent) 가 사용자의 비밀을 잊는 방법"**에 대한 혁신적인 연구를 다룹니다.

기존의 AI 는 한 번 배운 것을 지우려면 전체를 다시 공부해야 하거나, 단순히 기억을 지우는 것만으로는 충분하지 않았습니다. 이 논문은 **SBU(Synchronized Backflow Unlearning, 동기화된 역류 제거)**라는 새로운 방식을 제안합니다.

이 복잡한 기술을 쉽게 이해할 수 있도록 **'비밀을 간직한 AI 비서'**와 **'집안 정리'**에 비유해서 설명해 드리겠습니다.

1. 문제 상황: "잊으려 했지만, 다시 기억해 버린 AI"

상상해 보세요. 당신의 AI 비서가 당신의 **개인적인 비밀 (예: 특정 질병 진단명)**을 두 곳에 저장했습니다.

머릿속 (모델 파라미터): AI 가 스스로 학습한 지식.
수첩 (외부 메모리): 대화 기록, 요약본, 참고 자료 등.

기존의 방법 (단순 삭제):
사용자가 "이 비밀을 잊어줘!"라고 요청하면, 기존 AI 는 **수첩 (외부 메모리)**에서 그 내용을 지웁니다. 하지만 **머릿속 (모델)**에는 여전히 그 정보가 남아 있습니다.

결과: AI 는 수첩을 비웠지만, 머릿속에 남은 기억을 바탕으로 다시 그 내용을 말해버립니다. 혹은 사용자가 "그때 그 병은 뭐였지?"라고 물으면, AI 가 머릿속 기억을 꺼내와서 다시 수첩에 적어 넣습니다.
이것을 논문에서는 '역류 (Backflow)'라고 부릅니다. 지운 정보가 다시 흘러들어와서 다시 오염시키는 현상입니다.

2. 해결책: SBU (동기화된 역류 제거)

이 논문은 **"수첩과 머릿속을 동시에, 그리고 순서대로 정리해야 한다"**고 말합니다. 마치 집을 정리할 때, 먼저 쓰레기를 치우고 나서 그 자리에 새로운 것을 배치하는 것과 같습니다.

SBU 는 두 가지 핵심 전략을 동시에 사용합니다.

🧠 전략 1: 머릿속 정리 (파라미터 경로)

비유: AI 의 머릿속이 너무 꽉 차서 특정 기억을 지우려 할 때, 단순히 그 기억만 지우면 다른 중요한 기억 (의학적 지식 등) 도 함께 망가질 수 있습니다.
해결: AI 가 그 비밀에 대해 **"아, 그건 잘 모르겠네요. 아무거나 말해볼까요?"**라고 무작위적이고 헷갈리는 대답을 하도록 훈련시킵니다.
효과: AI 가 그 비밀을 '확신'하지 못하게 만들어, 다시 기억해내지 못하도록 합니다. 하지만 다른 중요한 지식은 그대로 유지됩니다.

📓 전략 2: 수첩 정리 (메모리 경로)

비유: 수첩에 적힌 내용을 지울 때, 단순히 한 줄만 지우면 안 됩니다. 그 내용에서 파생된 요약본이나 참고 자료들도 모두 지워야 합니다. 하지만 다른 사람과 공유한 내용은 지우면 안 됩니다.
해결:
1. 의존성 분석: "이 요약본은 지우려는 비밀 때문에 만들어졌나요? 아니면 다른 정보로도 만들어졌나요?"를 따져봅니다.
2. 선택적 삭제: 오직 비밀 때문에 만들어진 것만 싹 지우고, 공유된 것은 남겨둡니다.
3. 블랙리스트: 그 비밀이 다시 수첩에 들어오지 못하도록 '금지 목록'에 넣습니다.

⚡ 핵심: "동기화 (Synchronized)"

가장 중요한 점은 순서입니다.

먼저 수첩을 정리합니다. (비밀이 다시 꺼내지지 않게 막음)
그 다음에 머릿속을 정리합니다. (수첩이 깨끗해진 상태에서 AI 가 다시 배우지 못하게 함)

이 순서를 지키지 않으면, AI 가 수첩을 보고 다시 머릿속에 정보를 주입할 수 있기 때문입니다. 이 두 과정을 동기화하여 서로가 서로를 도와주게 만듭니다.

3. 실험 결과: 얼마나 잘 작동할까요?

연구진은 의료 분야 (환자의 비밀을 다루는 상황) 에서 이 방법을 테스트했습니다.

기존 방법: 비밀을 잊으려 했지만, AI 가 여전히 그 정보를 알아맞히거나 (개인정보 유출 위험), 다른 지식을 망가뜨렸습니다.
SBU (이 논문):
- 비밀은 완벽하게 잊었습니다. (유출 위험 24.8% 감소)
- 다른 지식은 그대로 잘 유지했습니다. (정확도 90% 이상 유지)
- 계산 비용도 적게 들었습니다.

4. 요약: 왜 이 연구가 중요한가요?

이 논문은 **"AI 가 기억을 지울 때는, 머릿속과 수첩을 따로따로 지우면 안 된다"**는 사실을 처음으로 증명했습니다.

기존: "수첩만 지우면 돼!" → 실패 (머릿속 기억이 다시 튀어나옴)
이 논문: "수첩을 먼저 깨끗이 치우고, 머릿속도 그 기억을 잊게 훈련하자!" → 성공

이는 의료, 법률, 금융처럼 엄청난 비밀을 다루는 AI 비서들이 사용자의 '잊을 권리 (Right to be Forgotten)'를 진정으로 존중할 수 있는 길을 열었습니다. 마치 AI 가 "네, 그건 제가 기억하지 않아요. 그리고 그 기록도 완전히 없앴어요"라고 진심으로 말할 수 있게 만든 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경:
대규모 언어 모델 (LLM) 에이전트는 지속적인 메모리 (Persistent Memory) 를 통해 의료, 진단 등 고위험 분야에서 장기적인 환자 모니터링과 개인화된 지원을 가능하게 합니다. 이러한 에이전트는 모델의 내부 파라미터와 외부 메모리 저장소 (벡터 스토어, 요약, 인덱스 등) 에 정보를 이중으로 저장합니다.

핵심 문제: 정보의 역류 (Backflow)
기존의 머신 언러닝 (Machine Unlearning) 기법은 상태가 없는 (stateless) 모델의 파라미터 삭제에 집중합니다. 그러나 메모리 강화 에이전트에서는 다음과 같은 '정보 역류 (Backflow)' 현상이 발생합니다.

파라미터 - 메모리 역류: 외부 메모리에서 민감 정보를 삭제하더라도, 모델 파라미터에 잔존하는 지식이 추론 시 정보를 재생성하여 다시 메모리에 저장합니다.
메모리 - 파라미터 역류: 메모리만 삭제하더라도, 검색 (Retrieval) 을 통해 모델이 과거의 파라미터에 인코딩된 정보를 다시 활성화하여 잊혀야 할 내용을 학습하게 됩니다.

이러한 폐쇄 루프 (Closed-loop) 구조로 인해 기존 파라미터 중심의 언러닝 방법만으로는 에이전트에서 진정한 정보 삭제가 불가능하며, HIPAA 및 GDPR 과 같은 규정 준수에 심각한 위협이 됩니다.

2. 제안 방법: 동기화된 역류 언러닝 (SBU)

저자들은 동기화된 역류 언러닝 (Synchronized Backflow Unlearning, SBU) 프레임워크를 제안하여 파라미터와 메모리 경로를 동시에 관리하고 역류를 차단합니다.

2.1. 아키텍처 및 메모리 구조

의존성 그래프 (Dependency Graph): 메모리를 단순한 저장소가 아닌, 원시 대화 (Episodic), 의미적 요약 (Semantic), 성찰 (Reflection), 지식 그래프 (Knowledge Graph) 노드로 구성된 의존성 그래프로 모델링합니다.
참조 카운팅 및 차단 목록: 삭제된 항목의 식별자를 차단 목록 (Blocklist) 에 즉시 추가하고, 파생된 아티팩트 (요약, 지식 그래프 등) 간의 의존성을 추적하여 공유된 아티팩트를 파괴하지 않으면서 독립적으로 의존하는 데이터만 정밀하게 제거합니다.

2.2. 이중 경로 프로토콜 (Dual-Pathway Protocol)

SBU 는 두 가지 경로를 동기화하여 순차적으로 실행합니다.

메모리 언러닝 경로 (Memory Unlearning Pathway):
- 의존성 인식 삭제 (Dependency-aware Deletion): 삭제 요청된 데이터 ( $D_F$ ) 를 차단 목록에 추가합니다.
- 의존성 폐쇄 (Dependency Closure): $D_F$ 에 의존하는 파생 아티팩트 (요약, 성찰 등) 를 식별합니다.
- 정밀 제거: 오직 삭제된 데이터에만 의존하는 아티팩트는 제거하고, 다른 유효한 데이터와 공유되는 아티팩트는 참조 카운트를 감소시켜 유지합니다. 이는 공유 지식의 손실을 방지합니다.
- 순서: 메모리 삭제가 먼저 수행되어, 이후 파라미터 업데이트 시 모델이 삭제된 정보를 다시 검색하지 않도록 환경을 정화합니다.
파라미터 언러닝 경로 (Parameter Unlearning Pathway):
- 확률적 참조 정렬 (Stochastic Reference Alignment): 기존 경사 상승법 (Gradient Ascent) 은 모델 성능을 저하시킬 수 있습니다. SBU 는 KL-발산 (KL Divergence) 기반의 새로운 목적 함수를 사용합니다.
- 고엔트로피 사전 (High-Entropy Prior): 잊혀야 할 데이터 ( $D_F$ ) 에 대해 모델의 출력 분포를 무작위로 초기화된 참조 모델 ( $f_{\theta_0}$ ) 의 분포에 맞추어, 모델이 해당 질문에 대해 "확신하지 못하는 (고엔트로피)" 상태로 만듭니다.
- 유지 데이터 보존: 유지해야 할 데이터 ( $D_R$ ) 에 대해서는 표준 교차 엔트로피 손실을 사용하여 일반 의료 지식의 성능을 유지합니다.

2.3. 동기화 프로토콜

순차적 실행: 먼저 메모리 경로에서 데이터를 차단하고 삭제한 후, 정화된 검색 컨텍스트 하에서 파라미터 경로를 업데이트합니다.
폐쇄 루프 차단: 이 순서는 모델이 삭제된 정보를 다시 인코딩하거나 메모리에 다시 기록하는 것을 방지하여, 양쪽 경로 모두에서 잔여물이 남지 않도록 합니다.

3. 주요 기여 (Key Contributions)

에이전틱 언러닝 (Agentic Unlearning) 의 정의: 기존 LLM 언러닝을 넘어, 메모리 강화 에이전트에서 발생하는 '파라미터 - 메모리 역류' 문제를 공식적으로 정의하고 해결책을 제시한 최초의 연구입니다.
SBU 프레임워크 개발: 파라미터와 메모리 경로를 동기화하는 이중 경로 프로토콜을 설계하여, 의존성 인식 삭제와 확률적 참조 정렬을 결합했습니다.
검증 가능성: 모든 삭제 작업은 위변조 방지 감사 로그 (Tamper-evident audit log) 에 기록되어 검증 가능성을 제공합니다.

4. 실험 결과 (Results)

의료 QA 벤치마크 (MedQA, MedMCQA, MedReason) 에서 기존 방법 (Gradient Ascent, NPO, Sequential LoRA 등) 과 비교 평가되었습니다.

개인정보 보호 성능 (Privacy):
- SBU 는 멤버십 추론 공격 (MIA) 점수를 24.8% 향상시켰습니다 (예: MedQA 에서 0.717 → 0.895).
- 이는 모델이 삭제된 데이터의 멤버십을 구분하지 못하게 함을 의미하며, 기존 방법들은 역류로 인해 보호가 불완전했습니다.
유용성 보존 (Utility):
- 테스트 정확도 (Test Accuracy) 및 일반화 (Generalization): SBU 는 잊혀야 할 정보를 효과적으로 제거하면서도 유지 데이터에 대한 정확도를 90% 이상 유지했습니다.
- 반면, 공격적으로 언러닝을 수행한 기존 방법 (예: NPO) 은 일반화 성능이 급격히 하락 (41.67% 등) 하는 '과도한 언러닝 (Over-unlearning)' 현상을 보였습니다.
확장성 및 효율성:
- 삭제 데이터 양이 100 에서 1000 으로 증가해도 SBU 는 성능을 유지하며, GPU 메모리 사용량도 기존 방법보다 낮게 유지되었습니다.
메모리 경로 분석:
- 메모리 경로만 적용한 경우나 파라미터만 적용한 경우보다 SBU(동시 적용) 가 역류를 효과적으로 차단하고 성능을 유지함을 입증했습니다.

5. 의의 및 결론 (Significance)

규정 준수 및 신뢰성: 의료 및 고위험 분야에서 LLM 에이전트가 환자의 민감 정보를 안전하게 삭제할 수 있는 첫 번째 체계적인 프레임워크를 제시하여, GDPR 및 HIPAA 규정 준수를 가능하게 합니다.
새로운 패러다임: 단순한 파라미터 수정을 넘어, 에이전트의 '기억 (Memory)'과 '지식 (Knowledge)'을 통합적으로 관리하는 새로운 언러닝 패러다임을 정립했습니다.
미래 방향: 현재는 단일 에이전트 환경에 초점을 맞추었으나, 향후 공유 지식 그래프를 가진 다중 에이전트 협업 환경으로의 확장을 목표로 하고 있습니다.

이 논문은 LLM 에이전트의 지속적인 학습과 메모리 관리가 가져오는 프라이버시 위험을 해결하기 위해, 메모리 삭제와 파라미터 업데이트를 동기화하는 필수적인 메커니즘을 제시했다는 점에서 중요한 의의를 가집니다.