Tracing and Reversing Edits in LLMs

이 논문은 LLM 의 편집된 가중치만을 기반으로 편집된 개체 엔티티를 추적하고, 추가 정보 없이 편집을 되돌리는 새로운 방법을 제안하여 LLM 을 악의적인 조작으로부터 보호하는 새로운 연구 방향을 제시합니다.

Paul Youssef, Zhixue Zhao, Christin Seifert, Jörg Schlötterer

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 언어 모델 (LLM) 이 기억을 조작당했을 때, 어떻게 그 흔적을 찾아내고 원래대로 되돌릴 수 있을까?"**라는 아주 흥미로운 질문에서 시작합니다.

마치 **마법사 (해커)**가 거대 언어 모델이라는 지혜로운 도서관의 책 내용을 몰래 바꿔치기 했을 때, 도서관 사서 (연구자) 가 어떻게 그 변조된 책을 찾아내고, 다시 원래의 내용으로 되돌릴 수 있는지에 대한 이야기입니다.

이 연구의 핵심 내용을 쉬운 비유로 설명해 드릴게요.


1. 문제 상황: 도서관의 비밀스러운 책장 고장

거대 언어 모델 (LLM) 은 방대한 지식을 가지고 있지만, 때로는 오래된 정보를 가지고 있거나, 누군가 악의적으로 정보를 바꿔치기 할 수 있습니다.

  • 예시: "독일 총리는 올라프 숄츠다"라는 사실을 "프리드리히 메르츠"로 바꾸는 건 유용한 수정일 수 있지만, "백신은 당뇨를 유발한다"는 거짓 정보를 심어놓는 건 치명적입니다.
  • 위험: 해커는 모델을 살짝 건드려 (가볍게 수정해서) 거짓 정보를 심어놓을 수 있습니다. 문제는 어떤 부분이 고장 났는지, 어떤 정보가 바뀐 것인지 알 수 없다는 점입니다. 마치 도서관 전체를 뒤져봐야만 고장 난 책을 찾을 수 있는 것과 같습니다.

2. 해결책 1: 흔적 찾기 (Tracing) - "누가, 무엇을 바꿨지?"

연구자들은 **"수정된 책장 (모델의 가중치) 만을 보고, 어떤 내용이 바뀌었는지 알아낼 수 있다"**는 놀라운 방법을 개발했습니다.

  • 비유: 도서관의 책장 한 구석이 살짝 흔들려서 (가중치 수정) 그 흔적을 보고, "아! 이 책장에 **'백신'**이라는 단어가 들어간 책이 **'당뇨'**로 바뀌었구나!"라고 추리하는 것입니다.
  • EditScope (에디트스コー프) 라는 도구: 이 연구에서 만든 새로운 도구입니다. 이 도구는 바뀐 책장 (모델의 수정된 부분) 을 분석해서, **"어떤 대상 (Object) 이 바뀌었는지"**를 99% 에 가까운 정확도로 찾아냅니다.
  • 의미: 해커가 어떤 질문을 했는지, 어떤 단서를 남겼는지 전혀 몰라도, 모델의 '뇌' 구조만 보면 "아, 여기서 거짓말을 심었구나!"라고 바로 알아챌 수 있습니다.

3. 해결책 2: 되돌리기 (Reversing) - "시간을 거꾸로 돌려 원래대로!"

바뀐 내용을 찾아냈다면, 이제 그 내용을 원래대로 되돌려야 합니다. 하지만 다시 원래의 모델을 가지고 있거나, 어떻게 고쳤는지 알 수 없다면 어떨까요?

  • 비유: 거울에 그림을 그려서 거울의 상을 왜곡시켰다고 가정해 보세요. 연구자들은 **"거울의 가장 깊은 층 (Bottom-rank)"**만 남기고, 위에 그려진 그림 (수정된 정보) 을 지우는 방법을 발견했습니다.
  • 최하위 근사 (Bottom-rank Approximations): 모델의 지식은 여러 층으로 쌓여 있는데, 악의적인 수정은 보통 '가장 두드러진 층 (상위 층)'에 집중되어 있습니다. 연구자들은 이 두드러진 층을 잘라내고, 가장 기본적이고 깊은 층만 남기는 것으로 모델을 되돌렸습니다.
  • 결과: 이 방법을 쓰면, 모델이 다시 원래의 정답 ("백신은 면역력을 준다") 을 말하게 됩니다. 정확도가 94% 에 달할 정도로 효과적이었습니다. 마치 왜곡된 거울을 닦아내면 다시 맑게 비치는 것과 같습니다.

4. 추가 발견: "수정된 흔적"은 쉽게 감지된다

이 연구는 또 다른 재미있는 사실을 발견했습니다.

  • 비유: 수정된 모델은 마치 불규칙하게 흔들리는 시계와 같습니다. 수정되지 않은 원래 모델은 일정한 리듬을 유지하지만, 수정된 모델은 조금만 건드려도 (수학적 근사를 적용하면) 반응이 매우 크게 달라집니다.
  • 활용: 이 특징을 이용하면, **"이 모델이 수정되었는지, 아니면 원래 상태인지"**를 쉽게 구별할 수 있습니다. 마치 시계 소리를 듣고 "아, 이 시계는 누군가가 건드렸구나"라고 알 수 있는 것과 같습니다.

5. 결론: AI 의 안전을 지키는 새로운 방패

이 논문은 다음과 같은 중요한 메시지를 전달합니다.

  1. 악의적인 수정을 추적할 수 있다: 모델을 수정한 사람의 흔적 (수정된 가중치) 만으로도, 무엇을 바꿨는지 찾아낼 수 있습니다.
  2. 되돌릴 수 있다: 추가 정보 없이도, 모델을 원래의 순수한 상태로 되돌릴 수 있는 방법이 있습니다.
  3. 안전한 AI: 앞으로 해커가 모델을 조작하더라도, 우리는 그 흔적을 찾아내고 원상복구할 수 있는 강력한 도구를 갖게 되었습니다.

한 줄 요약:

"누군가 AI 의 기억을 조작했다면, 우리는 그 조작된 '뇌'의 미세한 떨림을 감지해 거짓말을 찾아내고, 마치 시간 여행을 하듯 AI 를 원래의 진실한 모습으로 되돌릴 수 있습니다."

이 연구는 AI 가 더 안전하고 신뢰할 수 있도록 만드는 중요한 첫걸음입니다.