Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

이 논문은 확산 언어 모델 (DLM) 의 학습 데이터 암기 행동을 체계적으로 분석하여, 샘플링 해상도와 암기 확률 간의 단조 증가 관계를 이론적으로 증명하고, 기존 autoregressive 모델에 비해 DLM 이 개인 식별 정보 (PII) 유출 위험이 낮음을 실험적으로 입증했습니다.

Xiaoyu Luo, Wenrui Yu, Qiongxiu Li, Johannes Bjerva

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 두 가지 다른 조립 방식: 레고 vs. 그림 그리기

인공지능이 글을 쓰는 방식은 크게 두 가지가 있습니다.

  • 기존 방식 (ARM, Autoregressive Models): "한 글자씩 레고 쌓기"

    • 마치 레고 블록을 하나씩 쌓아 올리는 것처럼, 앞에 나온 단어만 보고 다음 단어를 하나씩 예측하며 글을 씁니다.
    • 이 방식은 훈련했던 데이터 (예: 누군가의 이메일 주소) 를 그대로 기억하고, 특정 단서를 주면 그 내용을 그대로 뱉어내는 경우가 많습니다.
  • 새로운 방식 (DLM, Diffusion Language Models): "흐릿한 그림을 선명하게 만들기"

    • 처음에는 모든 글자가 가려진 (마스킹 된) 상태입니다. AI 는 이 흐릿한 그림을 한 번에 여러 부분을 동시에 조금씩 선명하게 만들어갑니다.
    • 마치 안개 낀 사진을 여러 번 반복해서 선명하게 만드는 과정과 비슷합니다. 이 방식은 문맥을 양쪽에서 동시에 보고 글을 완성하므로, 기존 방식과는 기억하는 원리가 다릅니다.

2. 연구의 핵심 질문: "새로운 방식도 정보를 기억할까?"

기존 AI 는 훈련 데이터를 그대로 기억해서 유출할 위험이 크다는 게 알려져 있었습니다. 하지만 새로운 방식 (DLM) 은 글을 만드는 과정이 너무 달라서, **"이것도 훈련 데이터를 그대로 기억해 낼 수 있을까?"**라는 의문이 있었습니다.

연구진은 이 질문에 답하기 위해 두 가지 중요한 사실을 발견했습니다.

① "조금씩 더 자세히 그려낼수록, 기억이 더 선명해진다" (샘플링 해상도)

  • 비유: 흐릿한 그림을 완성할 때, 한 번에 큰 덩어리로 그리는 것과 매우 작은 점 하나하나까지 꼼꼼히 그리는 것의 차이입니다.
  • 발견: AI 가 글을 만들 때, 가려진 부분을 한 번에 많이 복구하는 것보다, 작은 단계로 나누어 천천히, 정교하게 복구할수록 훈련된 데이터를 그대로 (verbatim) 기억해 낼 확률이 높아졌습니다.
  • 결론: 만약 AI 가 아주 작은 단계로 글을 하나씩 완성해 나간다면 (최대 해상도), 결국 기존 방식 (레고 쌓기) 과 똑같은 결과가 나옵니다. 즉, 조금 더 정교하게 만들수록 유출 위험이 커진다는 뜻입니다.

② "새로운 방식이 더 안전한가?" (개인정보 유출 비교)

  • 연구진은 두 가지 방식의 AI 를 똑같은 조건 (이메일 주소나 전화번호가 포함된 문장) 에서 테스트했습니다.
  • 결과: 놀랍게도, 새로운 방식 (DLM) 이 기존 방식 (ARM) 보다 훈련된 개인정보 (이메일, 전화번호 등) 를 기억해 내는 확률이 훨씬 낮았습니다.
  • 이유: 새로운 방식은 문장을 한 번에 여러 부분에서 동시에 복구하기 때문에, 특정 순서로 이어지는 긴 문장 (예: 이메일 주소 전체) 을 기억하는 데 어려움을 겪는 것으로 보입니다. 마치 퍼즐을 한 번에 여러 조각을 맞춰야 하므로, 전체 그림을 기억하기가 더 어렵다는 것과 비슷합니다.

3. 이 연구가 왜 중요한가요?

  1. 안전한 AI 설계: 새로운 방식의 AI 가 기존 AI 보다 개인정보 유출 위험이 적다는 것을 확인했습니다. 이는 더 안전한 AI 를 만드는 데 중요한 단서가 됩니다.
  2. 유출 방지 전략: 만약 AI 가 훈련 데이터를 기억해 낼 확률이 조금 더 정교하게 (단계별로) 글을 만들 때 높아진다면, 우리는 AI 가 글을 만들 때 너무 세세하게 단계를 거치지 않게 하거나, 특정 설정을 조절하여 유출을 막을 수 있습니다.
  3. 진실 확인: 이 연구에서 개발한 측정 방법은 AI 가 단순히 "유사한 내용을 만들어낸 것 (일반화)"인지, 아니면 "정말 훈련 데이터를 외워서 뱉어낸 것 (기억)"인지 구별해 낼 수 있습니다.

요약

이 논문은 **"새로운 방식의 AI 는 그림을 그릴 때 흐릿한 상태에서 선명하게 만들며 글을 쓴다"**는 점을 이용해, **"이 방식이 기존 AI 보다 훈련된 개인정보를 덜 기억해 낸다"**는 것을 증명했습니다. 다만, **"너무 정교하게 (단계별로) 글을 완성하려 하면 기억이 더 잘 되므로 주의해야 한다"**는 교훈을 남겼습니다.

결론적으로, 새로운 AI 기술은 기존 기술보다 개인정보 보호 측면에서 더 유리할 수 있지만, 그 설정 (어떻게 글을 완성하느냐) 에 따라 위험도가 달라질 수 있음을 경고하고 있습니다.