Dynamic Weight Grafting: Localizing Finetuned Factual Knowledge in Transformers

이 논문은 미세조정된 사실적 지식을 사전 훈련된 모델의 가중치에 선택적으로 이식하는 '동적 가중치 이식 (Dynamic Weight Grafting)' 기법을 제안하여, LLM 이 엔티티 처리 시 정보를 '보강'하거나 최종 예측 직전에 '회상'하는 두 가지 서로 다른 경로를 통해 지식을 활용함을 규명했습니다.

Todd Nief, David Reber, Sean Richardson, Ari Holtzman

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 영화 배우의 새로운 정보를 기억하는 법: AI 의 '동적 접목' 연구

이 논문은 **거대 언어 모델 (LLM)**이 새로운 사실 (예: "새로 선출된 교황은 누구인가?" 또는 "새로 개봉한 영화의 배우는 누구인가?") 을 배웠을 때, 그 정보가 모델의 뇌 (파라미터) 안에 어디에, 어떻게 저장되고 어떻게 꺼내지는지 분석한 연구입니다.

기존의 연구 방법들은 마치 뇌의 특정 부위를 '수술'해서 기능을 멈추게 하는 방식이라, 정보가 어떻게 흐르는지 정확히 파악하기 어려웠습니다. 이 연구팀은 새로운 방법인 **'동적 가중치 접목 (Dynamic Weight Grafting)'**이라는 기술을 개발해 그 비밀을 밝혀냈습니다.


🌱 1. 새로운 방법: '동적 가중치 접목'이란?

기존의 '활성화 패치 (Activation Patching)' 방식은 모델이 정보를 처리하는 도중, 특정 시점의 '생각 (활성화)'을 다른 모델의 생각으로 갈아끼우는 것이었습니다. 이는 마치 레고 블록을 조립하는 도중, 이미 붙인 블록을 떼어내고 다른 블록으로 교체하는 것과 같습니다. 그러면 이전 단계에서 어떻게 정보가 쌓였는지 알 수 없게 됩니다.

반면, 이 논문에서 제안한 **'동적 가중치 접목'**은 다음과 같습니다:

  • 비유: 두 명의 요리사 (기존 모델과 새로운 정보를 학습한 모델) 가 있다고 가정해 봅시다.
  • 기존 방식: 요리사가 요리를 하는 도중, 특정 단계의 '손맛'을 다른 요리사의 손맛으로 바꿔버리는 것입니다.
  • 새로운 방식: 요리를 시작할 때, **특정 재료 (가중치)**만 새로운 요리사의 것을 가져와서 사용합니다. 예를 들어, "양파를 다지는 칼은 새로운 요리사의 것을 쓰고, 소금 뿌리는 손은 기존 요리사의 것을 쓴다"는 식으로 세부 부품만 교체합니다.

이렇게 하면 모델의 전체 흐름을 방해하지 않으면서, 어떤 부품이 새로운 정보를 기억하는 데 핵심적인지 정확히 찾아낼 수 있습니다.


🔍 2. 발견한 두 가지 기억 경로

연구팀은 이 기술을 통해 AI 가 새로운 사실을 기억하고 꺼낼 때 사용하는 두 가지 주요 경로를 발견했습니다.

① '풍요로움 (Enrichment)' 경로: 처음 만날 때 정보를 채우기

  • 상황: 문장 속에서 새로운 배우 이름 (예: "Zendaya") 이 처음 등장할 때입니다.
  • 비유: 여행 가방을 채우는 과정입니다. Zendaya 라는 이름을 처음 보자마자, AI 는 그 이름이 가진 새로운 정보 (새로운 영화 정보 등) 를 가방 (잔여 스트림) 에 채워 넣습니다.
  • 결과: 이 가방이 충분히 채워지면, 나중에 질문을 받기만 해도 가방에서 정보를 꺼내 답할 수 있습니다.

② '기억 회상 (Recall)' 경로: 마지막에 정보를 꺼내기

  • 상황: 문장의 마지막 부분, 정답을 말하기 직전입니다.
  • 비유: 마지막에 다시 확인하는 과정입니다. 처음에 가방을 채우지 않았더라도, 정답을 말하기 직전에 "아, 이 배우가 어떤 영화에 나왔지?"라고 마지막 순간에 정보를 찾아내는 메커니즘이 작동합니다.
  • 결과: 이 과정은 문장의 마지막 토큰 (단어) 위치에서 일어나며, Attention(주목) 메커니즘과 Feedforward Network(전통적인 신경망 층) 가 협력하여 정보를 꺼냅니다.

🧩 3. 핵심 발견: 두 가지 중 하나만 있어도 된다?

흥미로운 점은 모델에 따라 두 경로 중 하나만 있어도 정답을 맞출 수 있다는 것입니다.

  • 경우 A: 처음 배우 이름이 나올 때 정보를 잘 채워주면 (풍요로움), 나중에 정답을 말하기 직전에 어떤 처리를 하든 상관없이 정답을 맞춥니다.
  • 경우 B: 처음에는 정보를 채우지 않아도, 정답을 말하기 직전에 (기억 회상) 정보를 찾아내는 능력이 뛰어나면 정답을 맞춥니다.

하지만 두 경로 모두를 막아버리면 (가방도 비우고, 마지막 확인도 못 하게 하면), AI 는 완전히 망각한 상태가 되어 정답을 못 맞춥니다. 즉, 이 두 가지 경로가 새로운 정보를 기억하는 데 필수불가결하다는 뜻입니다.


🛠️ 4. 어떤 부품이 중요한가?

연구팀은 '기억 회상' 경로가 구체적으로 어떤 부품에서 일어나는지까지 찾아냈습니다.

  • Attention (주목): 문장의 처음 (배우 이름) 과 마지막 (정답 직전) 에서 무엇을 주목할지 결정하는 역할을 합니다.
  • Feedforward Network (신경망 층): 마지막 단계에서 실제 정보를 꺼내서 정답으로 변환하는 역할을 합니다.
  • 비유: Attention 은 도서관의 검색창이고, Feedforward Network 는 책장을 뒤져서 책을 꺼내는 사서입니다. 검색창 (Attention) 이 올바른 책을 찾아주고, 사서 (Feedforward) 가 그 책을 가져와서 정답을 알려주는 것입니다.

💡 5. 결론: AI 의 기억 방식을 이해하다

이 연구는 AI 가 새로운 사실을 배울 때 단순히 '기억'만 하는 것이 아니라, 처음 정보를 접할 때 저장하는 방식답변을 할 때 다시 찾아내는 방식이라는 두 가지 전략을 동시에 사용한다는 것을 보여줍니다.

  • 기존의 오해: AI 는 새로운 정보를 배울 때 무조건 처음부터 끝까지 모든 정보를 저장한다고 생각했습니다.
  • 새로운 사실: AI 는 상황에 따라 처음에 저장하거나 마지막에 찾아내거나, 혹은 둘 다 사용하는 유연한 방식을 가집니다.

이처럼 AI 의 내부 작동 원리를 '부품 교체' 방식으로 정밀하게 분석함으로써, 우리는 AI 가 어떻게 학습하고 기억하는지 더 깊이 이해하게 되었습니다. 이는 향후 AI 의 오류를 수정하거나, 새로운 지식을 더 효율적으로 주입하는 데 큰 도움이 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →