Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Each language version is independently generated for its own context, not a direct translation.

1. 두 가지 다른 조립 방식: 레고 vs. 그림 그리기

인공지능이 글을 쓰는 방식은 크게 두 가지가 있습니다.

기존 방식 (ARM, Autoregressive Models): "한 글자씩 레고 쌓기"
- 마치 레고 블록을 하나씩 쌓아 올리는 것처럼, 앞에 나온 단어만 보고 다음 단어를 하나씩 예측하며 글을 씁니다.
- 이 방식은 훈련했던 데이터 (예: 누군가의 이메일 주소) 를 그대로 기억하고, 특정 단서를 주면 그 내용을 그대로 뱉어내는 경우가 많습니다.
새로운 방식 (DLM, Diffusion Language Models): "흐릿한 그림을 선명하게 만들기"
- 처음에는 모든 글자가 가려진 (마스킹 된) 상태입니다. AI 는 이 흐릿한 그림을 한 번에 여러 부분을 동시에 조금씩 선명하게 만들어갑니다.
- 마치 안개 낀 사진을 여러 번 반복해서 선명하게 만드는 과정과 비슷합니다. 이 방식은 문맥을 양쪽에서 동시에 보고 글을 완성하므로, 기존 방식과는 기억하는 원리가 다릅니다.

2. 연구의 핵심 질문: "새로운 방식도 정보를 기억할까?"

기존 AI 는 훈련 데이터를 그대로 기억해서 유출할 위험이 크다는 게 알려져 있었습니다. 하지만 새로운 방식 (DLM) 은 글을 만드는 과정이 너무 달라서, **"이것도 훈련 데이터를 그대로 기억해 낼 수 있을까?"**라는 의문이 있었습니다.

연구진은 이 질문에 답하기 위해 두 가지 중요한 사실을 발견했습니다.

① "조금씩 더 자세히 그려낼수록, 기억이 더 선명해진다" (샘플링 해상도)

비유: 흐릿한 그림을 완성할 때, 한 번에 큰 덩어리로 그리는 것과 매우 작은 점 하나하나까지 꼼꼼히 그리는 것의 차이입니다.
발견: AI 가 글을 만들 때, 가려진 부분을 한 번에 많이 복구하는 것보다, 작은 단계로 나누어 천천히, 정교하게 복구할수록 훈련된 데이터를 그대로 (verbatim) 기억해 낼 확률이 높아졌습니다.
결론: 만약 AI 가 아주 작은 단계로 글을 하나씩 완성해 나간다면 (최대 해상도), 결국 기존 방식 (레고 쌓기) 과 똑같은 결과가 나옵니다. 즉, 조금 더 정교하게 만들수록 유출 위험이 커진다는 뜻입니다.

② "새로운 방식이 더 안전한가?" (개인정보 유출 비교)

연구진은 두 가지 방식의 AI 를 똑같은 조건 (이메일 주소나 전화번호가 포함된 문장) 에서 테스트했습니다.
결과: 놀랍게도, 새로운 방식 (DLM) 이 기존 방식 (ARM) 보다 훈련된 개인정보 (이메일, 전화번호 등) 를 기억해 내는 확률이 훨씬 낮았습니다.
이유: 새로운 방식은 문장을 한 번에 여러 부분에서 동시에 복구하기 때문에, 특정 순서로 이어지는 긴 문장 (예: 이메일 주소 전체) 을 기억하는 데 어려움을 겪는 것으로 보입니다. 마치 퍼즐을 한 번에 여러 조각을 맞춰야 하므로, 전체 그림을 기억하기가 더 어렵다는 것과 비슷합니다.

3. 이 연구가 왜 중요한가요?

안전한 AI 설계: 새로운 방식의 AI 가 기존 AI 보다 개인정보 유출 위험이 적다는 것을 확인했습니다. 이는 더 안전한 AI 를 만드는 데 중요한 단서가 됩니다.
유출 방지 전략: 만약 AI 가 훈련 데이터를 기억해 낼 확률이 조금 더 정교하게 (단계별로) 글을 만들 때 높아진다면, 우리는 AI 가 글을 만들 때 너무 세세하게 단계를 거치지 않게 하거나, 특정 설정을 조절하여 유출을 막을 수 있습니다.
진실 확인: 이 연구에서 개발한 측정 방법은 AI 가 단순히 "유사한 내용을 만들어낸 것 (일반화)"인지, 아니면 "정말 훈련 데이터를 외워서 뱉어낸 것 (기억)"인지 구별해 낼 수 있습니다.

요약

이 논문은 **"새로운 방식의 AI 는 그림을 그릴 때 흐릿한 상태에서 선명하게 만들며 글을 쓴다"**는 점을 이용해, **"이 방식이 기존 AI 보다 훈련된 개인정보를 덜 기억해 낸다"**는 것을 증명했습니다. 다만, **"너무 정교하게 (단계별로) 글을 완성하려 하면 기억이 더 잘 되므로 주의해야 한다"**는 교훈을 남겼습니다.

결론적으로, 새로운 AI 기술은 기존 기술보다 개인정보 보호 측면에서 더 유리할 수 있지만, 그 설정 (어떻게 글을 완성하느냐) 에 따라 위험도가 달라질 수 있음을 경고하고 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 대규모 언어 모델 (LLM) 은 훈련 데이터를 암기하여 그대로 재생성할 수 있어 (verbatim reproduction), 개인정보 유출 (PII) 과 저작권 침해의 우려가 있습니다. 기존 연구는 주로 자기회귀 언어 모델 (Autoregressive Models, ARMs) 에 집중되어 왔습니다.
문제: 최근 등장한 확산 언어 모델 (Diffusion Language Models, DLMs) 은 생성 역학이 근본적으로 다릅니다. ARMs 이 순차적인 다음 토큰 예측을 최소화하는 반면, DLM 은 비인과적 (non-causal) 인 마스킹과 역방향 노이즈 제거 (reverse denoising) 과정을 최적화합니다.
연구 격차: DLM 의 이러한 구조적 차이로 인해, 기존 ARMs 에 적용되던 '프refix-구현' 기반의 암기 평가 프레임워크가 DLM 에서는 직접적으로 적용되지 않습니다. 따라서 DLM 의 암기 행동을 체계적으로 정의하고, 확산 생성 역학이 훈련 데이터 노출에 미치는 영향을 규명할 필요가 있습니다.

2. 방법론 (Methodology)

이 연구는 DLM 의 암기 행동을 분석하기 위해 이론적 프레임워크와 실험적 검증을 결합했습니다.

가. 일반화된 확률적 추출 프레임워크 (Generalized Probabilistic Extraction Framework)

정의 확장: 기존 ARMs 의 고정된 '접두사 - 접미사 (prefix-suffix)' 구조를 넘어, 임의의 마스킹 패턴 (arbitrary masking patterns) 과 확률적 샘플링 궤적 (stochastic sampling trajectories) 을 고려하는 일반화된 암기 정의를 제안했습니다.
핵심 개념:
- 일반화된 (n, p)-탐지 가능 추출 (Generalized (n, p)-discoverable Extraction): 주어진 관측 토큰 ( $z_{\bar{M}}$ ) 하에서, $n$ 번의 독립적인 쿼리 내에서 마스킹된 토큰 ( $z_M$ ) 을 정확히 복원할 확률이 $p$ 이상일 때를 의미합니다.
- 단일 시도 확률 ( $p_z$ ) 추정: DLM 은 마스킹된 토큰을 복원하는 순서가 고정되지 않고 확률적이므로, 여러 번의 샘플링 경로 (mask-patterns) 를 평균화하여 단일 시도 성공 확률을 추정합니다.

나. 샘플링 해상도와 암기의 관계 분석

가정 (Assumption 4.2): 관측된 토큰 (정확히 복원된 컨텍스트) 이 증가할수록, 나머지 마스킹된 토큰을 올바르게 복원할 확률도 증가한다는 단조성 (monotonicity) 가정을 설정했습니다.
이론적 증명 (Theorem 4.3): 이 가정을 바탕으로, 샘플링 해상도 (Sampling Resolution, $N$ ) 가 증가할수록 (즉, 마스킹된 토큰을 더 세분화된 단계로 복원할수록) 훈련 데이터의 정확한 복원 확률이 단조 증가함을 증명했습니다.
- 극한 사례: 샘플링 단계 $N$ 이 마스킹된 토큰 수 $|M|$ 과 같아지면 (토큰 단위 복원), 확산 모델의 생성 과정은 ARMs 의 순차적 디코딩과 동일해집니다. 즉, ARM 은 DLM 의 최대 해상도 샘플링에 대한 특수한 경우로 해석됩니다.

다. 실험 설정

모델: 다양한 규모 (170M, 690M, 1.1B) 의 DLM 과 동일한 설정으로 훈련된 1.1B ARMs 베이스라인, 그리고 8B 규모의 LLaDA 모델 (LLaDA-8B) 을 사용했습니다.
데이터: SlimPajama(전체 훈련 데이터), Enron 이메일 데이터셋 (PII 평가용), TREC 2007 스팸 데이터셋 (일반화 vs 암기 검증용).
평가: 접두사 조건부 PII 완성 (prefix-conditioned PII completion) 태스크를 통해 ARMs 과 DLM 의 개인정보 유출 위험을 정량화했습니다.

3. 주요 기여 (Key Contributions)

DLM 을 위한 일반화된 암기 프레임워크: ARMs 의 한계를 넘어, 임의의 마스킹과 확률적 샘플링을 포함하는 DLM 의 암기를 정량화할 수 있는 이론적 기반을 마련했습니다.
샘플링 해상도의 통제 효과 증명: 샘플링 단계 (해상도) 를 늘릴수록 훈련 데이터의 정확한 복원 (암기) 확률이 증가한다는 이론적 정리를 제시하고, 이를 실험적으로 입증했습니다. 이는 ARMs 이 DLM 의 극단적인 경우임을 시사합니다.
규모 및 아키텍처 간 정렬된 비교 분석: 동일한 접두사 조건부 PII 평가 하에서 DLM 이 ARMs 보다 상대적으로 낮은 수준의 개인정보 (PII) 유출 위험을 보임을 발견했습니다.

4. 실험 결과 (Results)

이론적 검증: 제안된 일반화된 추출 프레임워크가 DLM 의 확률적 특성을 잘 포착하며, 이론적으로 계산된 복원 확률과 실험적으로 측정된 확률이 높은 일치도를 보였습니다.
샘플링 해상도 영향:
- DLM 에서 샘플링 단계 (Resolution) 를 증가시킬수록 (예: 1 단계 $\to$ 토큰 단위 단계) 훈련 데이터의 정확한 복원 성공률이 명확하게 증가했습니다.
- 이는 더 세분화된 노이즈 제거 과정이 모델이 훈련 데이터를 더 정확하게 "기억"하고 재생성하도록 만든다는 것을 의미합니다.
PII 유출 비교 (DLM vs ARM):
- 규모 매칭 (1.1B): 동일한 크기의 ARMs 에 비해 DLM 은 이메일 및 전화번호와 같은 PII 의 암기 및 유출 가능성이 현저히 낮았습니다.
- 대규모 모델 (LLaDA-8B): 8B 규모의 DLM 이 1 단계 복원보다 토큰 단위 복원 시 암기가 증가했으나, 여전히 1.1B 규모의 ARMs 과 유사하거나 낮은 수준의 유출을 보였습니다.
- 원인 분석: DLM 의 무작위 마스킹 훈련 방식이 긴 연속적인 컨텍스트를 보존하는 학습을 방해하여, ARMs 의 순차적 예측 방식보다 암기 위험이 낮아진 것으로 분석됩니다.
일반화 vs 암기 검증: 훈련 데이터 (Enron) 와 동일한 도메인의 unseen 데이터 (TREC Spam) 를 비교한 결과, 훈련 데이터에 대한 복원 확률이 유의미하게 높았습니다. 이는 측정된 유출이 단순한 일반화 (generalization) 가 아닌 실제 훈련 데이터의 암기 (memorization) 에서 기인함을 확인했습니다.

5. 의의 및 결론 (Significance)

이론적 통찰: 확산 언어 모델의 생성 역학 (노이즈 제거 과정) 이 훈련 데이터의 노출 위험에 직접적인 영향을 미친다는 것을 규명했습니다. 특히, 샘플링 해상도 (단계 수) 가 암기 위험을 조절하는 핵심 변수임을 증명했습니다.
실용적 함의:
- DLM 은 ARMs 에 비해 프라이버시 민감한 정보 (PII) 유출 위험이 상대적으로 낮을 수 있음을 시사합니다.
- 하지만, DLM 을 배포할 때 샘플링 전략 (해상도) 을 신중하게 선택해야 합니다. 고해상도 (세분화된) 샘플링은 생성 품질을 높일 수 있지만, 동시에 훈련 데이터의 정확한 재생성 (암기) 확률을 높여 프라이버시 리스크를 증가시킬 수 있습니다.
미래 작업: 파인튜닝 (SFT, 선호도 최적화) 이 DLM 의 암기 행동에 어떤 영향을 미치는지, 그리고 DLM 이 ARMs 스타일의 접두사 - 접미사 생성으로 이동할 경우 암기 위험이 어떻게 변할지에 대한 후속 연구가 필요함을 제안합니다.

요약하자면, 이 논문은 확산 언어 모델 (DLM) 이 자기회귀 모델 (ARM) 과 다른 방식으로 데이터를 암기하며, 특히 샘플링 해상도가 낮을수록 (단계가 적을수록) 개인정보 유출 위험이 감소한다는 중요한 발견을 제시했습니다.