Why Diffusion Language Models Struggle with Truly Parallel (Non-Autoregressive) Decoding?

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제: "동시 작업"을 하려는데 왜 혼자서 줄을 서서 할까?

상상해 보세요. 거대한 벽화 (글쓰기) 를 그리는 작업이 있습니다.

기존 방식 (자동 완성 모델, AR): 한 명의 화가가 붓을 들고 왼쪽에서 오른쪽으로 천천히 그림을 그립니다. 첫 번째 칸을 채워야 두 번째 칸을 그릴 수 있습니다. (비유: 줄을 서서 한 명씩 주문하는 식당)
새로운 방식 (확산 모델, DLM): 100 명의 화가가 동시에 벽화 전체에 그림을 칠할 수 있습니다. 처음엔 다 지워진 상태 (검은색) 에서 시작해서, 한 번에 여러 군데를 수정하며 점점 선명하게 만들어갑니다. 이론상으로는 모든 화가가 동시에 일하니까 엄청나게 빠를 것입니다.

하지만 현실은 어떨까요?
이론상 100 명이 동시에 일할 수 있는 시스템인데, 실제로는 한 명의 화가가 나머지 99 명을 지휘하며 여전히 왼쪽에서 오른쪽으로 줄을 서서 그림을 그리는 꼴이 됩니다. 왜일까요?

📚 2. 원인: "나쁜 교재"의 영향

논문의 핵심 주장은 **"모델이 배우는 교재 (데이터) 가 문제"**라는 것입니다.

상황: AI 모델은 우리가 평소 쓰는 책, 블로그, 수학 문제 풀이 과정 등을 보고 학습합니다.
문제: 이 자료들은 모두 "첫 번째 단어를 먼저 쓰고, 그다음 두 번째 단어를 쓰는" 식으로 되어 있습니다. (예: "사과가" -> "맛있다" 순서)
결과: AI 는 "아, 글을 쓸 때는 무조건 순서대로 하나씩 써야 하는구나!"라고 잘못 배웠습니다. 비록 AI 가 동시에 여러 글자를 고칠 수 있는 기술 (확산 모델) 을 가지고 있어도, 배운 교재가 "순서대로 써야 해"라고 가르쳤기 때문에, AI 는 여전히 혼자서 줄을 서서 일하게 됩니다.

비유: 100 명이 동시에 요리할 수 있는 거대한 주방 (확산 모델) 을 만들었는데, 요리사들에게 준 레시피가 "먼저 밥을 짓고, 그다음 반찬을 만들고..."라고 순서대로만 적혀 있다면, 요리사들은 100 명 다 모여서 동시에 요리할 수 없게 됩니다.

🔍 3. 실험: "무작위"로 해보니까 망했어요!

연구자들은 "그럼 순서대로 하지 말고, 무작위로 글자를 고쳐보자!"라고 시도했습니다.

결과: 순서대로 쓰는 습관을 깨뜨리기는 했지만, 글의 내용이 엉망이 되거나 (수학 문제 풀이 실패), 말이 안 되는 글이 나왔습니다.
이유: AI 는 "순서대로 생각해야 논리가 통한다"고 배웠기 때문에, 순서를 무시하면 머릿속이 혼란스러워진 것입니다.

💡 4. 해결책: NAP (동시 학습 + 동시 작업)

저자들은 이 문제를 해결하기 위해 NAP이라는 새로운 방법을 제안했습니다. 핵심은 **"데이터 (교재) 를 바꾸고, 작업 방식도 함께 바꾸는 것"**입니다.

① 새로운 교재 만들기 (병렬 사고 데이터)

기존의 "하나의 긴 이야기" 대신, 하나의 질문에 대해 여러 가지 다른 생각의 흐름 (경로) 을 동시에 보여주는 데이터를 만들었습니다.

비유: 수학 문제를 풀 때, 한 사람만 순서대로 풀게 하는 게 아니라, 세 명의 친구가 각자 다른 방법으로 문제를 풀고, 그 결과들을 한데 모아 정답을 찾는 방식으로 데이터를 구성했습니다.
이렇게 하면 AI 는 "아, 생각은 여러 갈래로 동시에 할 수 있구나!"라고 배우게 됩니다.

② 강제 동시 작업 (Parallel-Forced Decoding)

학습된 AI 가 실제로 글을 쓸 때도, 한 번에 여러 개의 생각 흐름을 동시에 발전시키도록 강제로 유도했습니다.

비유: 100 명의 요리사에게 "밥, 반찬, 국을 동시에 준비해!"라고 지시하면서, 각 요리사가 서로 다른 요리를 동시에 진행하도록 만든 것입니다.

🚀 5. 결과: 진짜 병렬 처리의 성공

이 새로운 방식 (NAP) 을 적용한 AI 는 다음과 같은 놀라운 성과를 냈습니다.

속도: 글자 수를 늘려도 속도가 느려지지 않았습니다. (기존 방식은 글자가 길어질수록 시간이 걸렸지만, NAP 은 그렇지 않았습니다.)
정확도: 여러 개의 생각 흐름을 동시에 처리하면서도, 수학 문제나 논리 문제에서 더 높은 정확도를 보였습니다.
진짜 병렬: AI 가 실제로 여러 줄을 동시에 채워 넣는 모습을 시각화했을 때, 한 줄씩 채우는 게 아니라 여러 줄이 동시에 성장하는 것을 확인했습니다.

📝 요약: 이 논문이 말하고 싶은 것

"AI 가 글을 쓸 때 한 글자씩 순서대로 쓰는 습관 (자동 완성) 을 버리고, 여러 글자를 동시에 만들어내는 진짜 '병렬 처리'를 하려면, AI 가 배우는 '교재 (데이터)'부터 바꿔야 한다는 것입니다.

기존의 '순서대로 쓰는' 교재로만 가르치면 AI 는 아무리 빠른 기술을 가져도 여전히 느리게 움직입니다. 하지만 '동시에 여러 가지 생각을 하는' 교재로 가르치고, 동시에 일하게 하면 AI 는 비로소 그 잠재력을 발휘할 수 있습니다."

이 연구는 AI 의 속도를 높이는 새로운 길을 열어주며, 앞으로 더 빠르고 효율적인 AI 시대가 올 수 있음을 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

배경: 확산 언어 모델 (Diffusion Language Models, DLMs) 은 이론적으로 토큰 생성을 병렬화하여 자동회귀 (Autoregressive, AR) 방식의 순차적 병목 현상을 해결하고 추론 지연 시간을 획기적으로 줄일 수 있는 잠재력을 가집니다.
현실적 한계: 실제 "빠른" DLM 구현체들은 대부분 왼쪽에서 오른쪽으로 진행하는 AR 과 유사한 디코딩 동역학으로 수렴합니다. 즉, 모델 아키텍처가 병렬 처리를 허용하더라도, 실제 추론 과정은 여전히 순차적으로 토큰을 생성하는 AR 방식과 유사하게 동작합니다.
근본 원인: 저자들은 이 현상의 주된 원인이 학습 목적 함수 (Objective) 와 훈련 데이터 간의 불일치라고 진단합니다.
- 기존 DLM 파이프라인은 AR 모델용으로 설계된 데이터 (FineWeb, 긴 Chain-of-Thought 데이터 등) 를 그대로 재사용합니다.
- 이러한 데이터는 토큰 간의 강한 순차적 의존성 (Sequential Dependence) 을 내포하고 있어, 모델이 확산 과정을 통해 노이즈를 제거할 때에도 암묵적으로 AR 형태의 생성 경로를 학습하게 됩니다.
- 결과적으로, 병렬 디코딩을 시도하면 추론 성능이 급격히 저하되거나, 성능을 유지하기 위해 결국 AR 방식과 유사한 순차적 경로를 따르게 됩니다.

2. 방법론 (Methodology: NAP)

저자들은 데이터와 디코딩 전략을 함께 설계하는 NAP (Non-Autoregressive Parallel DLMs) 프레임워크를 제안합니다. 이는 모델이 진정한 병렬 생성을 학습할 수 있도록 **감독 신호 (Supervision)**와 **추론 과정 (Inference Process)**을 재구성합니다.

가. 데이터 큐레이션 (Data Curation)

병렬 추론 궤적 생성: 단일한 선형 사고 체인 대신, 하나의 질문 (Query) 에 대해 여러 개의 **독립적인 추론 경로 (Reasoning Trajectories)**를 생성합니다.
- 고온 (High temperature) 샘플링을 사용하여 다양한 문제 해결 접근법과 논리적 순서를 유도합니다.
- 이 경로들은 서로 독립적이며, 일부는 오류를 포함할 수 있습니다.
집합 및 요약 (Aggregation): 여러 개의 병렬 경로 (Think blocks) 와 최종 정답 (Summary block) 을 하나의 훈련 인스턴스로 구성합니다.
- 모델은 여러 경로 중 유효한 논리를 식별하고 노이즈를 필터링하여 정답을 도출하도록 학습됩니다.
- 이는 "특권적인 토큰 순서 (Privileged Order)"를 제거하고, 확산 모델의 노이즈 제거 학습과 자연스럽게 호환되는 병렬 구조를 제공합니다.

나. 병렬 강제 디코딩 전략 (Parallel-Forced Decoding)

구조화된 캔버스 (Decoding Canvas): 모델이 여러 개의 독립적인 추론 블록 ( $R^{(1)}, \dots, R^{(m)}$ ) 과 하나의 요약 블록 ( $S$ ) 을 동시에 생성하도록 강제합니다.
계층적 업데이트 스케줄:
- 매크로 레벨 (Macro-level): 모든 추론 블록에 걸쳐 토큰 언마스크 (Unmasking) 예산을 분배하여, 상류 경로의 안정화를 기다리지 않고 여러 경로를 동시에 발전시킵니다.
- 마이크로 레벨 (Micro-level): 각 블록 내에서는 토큰의 신뢰도 (Confidence) 에 기반하여 순차적이지 않은 방식으로 토큰을 확정합니다.
- 이 전략은 모델이 단일 스트림 병목 현상에 빠지는 것을 방지하고 진정한 병렬 업데이트를 유도합니다.

3. 주요 기여 및 발견 (Key Contributions & Findings)

DLM 의 AR 편향 원인 규명:
- 널리 사용되는 훈련 데이터 (FineWeb, OpenR1-Math 등) 가 높은 순차적 의존성 (SeqDep) 을 가지며, 이는 모델이 AR 방식의 생성을 학습하도록 유도함을 정량적으로 증명했습니다.
- 긴 Chain-of-Thought (CoT) 데이터로 추가 파인튜닝을 수행하면 모델의 AR 편향 (ARness) 이 더욱 강화됨을 발견했습니다.
현재 "빠른" DLM 의 한계 지적:
- 기존 가속화 방법들 (예: Fast-dLLM) 은 순차적 생성을 제거하는 것이 아니라, 오히려 AR 적인 결정 경로를 가속화하여 속도 향상을 이루고 있음을 밝혔습니다.
NAP 의 유효성 입증:
- NAP 는 데이터와 디코딩 전략의 정렬 (Alignment) 을 통해 AR 과 유사한 행동을 완화하고, 높은 병렬성 (낮은 스텝 수) 환경에서도 강력한 성능을 유지함을 보였습니다.

4. 실험 결과 (Results)

벤치마크: GSM8K, MATH-500, GPQA 등 수리 추론 벤치마크에서 LLaDA-8B 와 Dream-7B 모델을 기반으로 실험 수행.
성능 향상:
- 높은 병렬성 환경 (낮은 스텝 수): NAP 는 기존 Long-CoT 기반 모델보다 훨씬 우수한 성능을 보였습니다.
  - 예: Dream-7B 기준 GSM8K 에서 256 스텝 (4 배 병렬) 시, Long-CoT 모델은 정확도가 78.0% 에서 46.5% 로 급락했으나, NAP 는 60.9% 를 유지했습니다.
  - 병렬도가 높을수록 NAP 와 기존 모델 간의 성능 격차가 커졌습니다 (256 스텝 시 +14.4% 향상).
- 병렬 폭 (m) 증가 효과: 추론 경로의 수를 1 개에서 3 개로 늘리면 성능이 지속적으로 향상되어, 병렬 생성이 "내부 앙상블 (Internal Ensemble)" 효과를 제공함을 시사했습니다.
ARness 감소: NAP 를 적용한 모델은 디코딩 과정에서 왼쪽에서 오른쪽으로 진행하는 단일 스트림 패턴을 깨고, 여러 병렬 밴드를 생성하며 AR 편향 (ARness) 이 현저히 낮아졌습니다.

5. 의의 및 결론 (Significance & Conclusion)

핵심 통찰: DLM 이 진정한 비자동회귀 (Non-AR) 병렬 생성을 달성하지 못하는 주된 원인은 모델 아키텍처나 디코딩 알고리즘의 결함이 아니라, 순차적 구조를 가진 훈련 데이터에 있음을 규명했습니다.
방향성 제시: DLM 의 효율성 잠재력을 완전히 unlocking 하기 위해서는 추론 시의 휴리스틱 최적화뿐만 아니라, 학습 데이터와 감독 신호 (Supervision) 의 구조를 근본적으로 재설계해야 함을 강조합니다.
한계 및 향후 과제: 현재 연구는 약 10 만 개의 샘플을 사용한 포스트-트레이닝 (Post-training) 단계의 개념 증명 (Proof-of-concept) 입니다. 완전한 AR 병목 현상의 제거를 위해서는 대규모 프리-트레이닝 단계에서도 비순차적이고 병렬 구조를 가진 데이터가 필요할 것으로 예상됩니다.

이 논문은 DLM 의 병렬화 가능성을 현실화하기 위해 "데이터 중심 (Data-centric)" 접근법이 필수적임을 보여주는 중요한 연구입니다.