Why Diffusion Language Models Struggle with Truly Parallel (Non-Autoregressive) Decoding?

이 논문은 확산 언어 모델 (DLM) 이 훈련 데이터의 순차적 구조와 목표 함수 간의 불일치로 인해 비자율적 병렬 디코딩이 어렵다는 점을 지적하고, 독립적인 추론 경로를 구성하고 병렬 강제 디코딩을 적용한 NAP(Data-centric) 접근법을 통해 진정한 병렬 생성을 가능하게 하여 수학 추론 성능을 향상시켰음을 보여줍니다.

Pengxiang Li, Dilxat Muhtar, Tianlong Chen, Lu Yin, Shiwei Liu

게시일 2026-03-02
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제: "동시 작업"을 하려는데 왜 혼자서 줄을 서서 할까?

상상해 보세요. 거대한 벽화 (글쓰기) 를 그리는 작업이 있습니다.

  • 기존 방식 (자동 완성 모델, AR): 한 명의 화가가 붓을 들고 왼쪽에서 오른쪽으로 천천히 그림을 그립니다. 첫 번째 칸을 채워야 두 번째 칸을 그릴 수 있습니다. (비유: 줄을 서서 한 명씩 주문하는 식당)
  • 새로운 방식 (확산 모델, DLM): 100 명의 화가가 동시에 벽화 전체에 그림을 칠할 수 있습니다. 처음엔 다 지워진 상태 (검은색) 에서 시작해서, 한 번에 여러 군데를 수정하며 점점 선명하게 만들어갑니다. 이론상으로는 모든 화가가 동시에 일하니까 엄청나게 빠를 것입니다.

하지만 현실은 어떨까요?
이론상 100 명이 동시에 일할 수 있는 시스템인데, 실제로는 한 명의 화가가 나머지 99 명을 지휘하며 여전히 왼쪽에서 오른쪽으로 줄을 서서 그림을 그리는 꼴이 됩니다. 왜일까요?

📚 2. 원인: "나쁜 교재"의 영향

논문의 핵심 주장은 **"모델이 배우는 교재 (데이터) 가 문제"**라는 것입니다.

  • 상황: AI 모델은 우리가 평소 쓰는 책, 블로그, 수학 문제 풀이 과정 등을 보고 학습합니다.
  • 문제: 이 자료들은 모두 "첫 번째 단어를 먼저 쓰고, 그다음 두 번째 단어를 쓰는" 식으로 되어 있습니다. (예: "사과가" -> "맛있다" 순서)
  • 결과: AI 는 "아, 글을 쓸 때는 무조건 순서대로 하나씩 써야 하는구나!"라고 잘못 배웠습니다. 비록 AI 가 동시에 여러 글자를 고칠 수 있는 기술 (확산 모델) 을 가지고 있어도, 배운 교재가 "순서대로 써야 해"라고 가르쳤기 때문에, AI 는 여전히 혼자서 줄을 서서 일하게 됩니다.

비유: 100 명이 동시에 요리할 수 있는 거대한 주방 (확산 모델) 을 만들었는데, 요리사들에게 준 레시피가 "먼저 밥을 짓고, 그다음 반찬을 만들고..."라고 순서대로만 적혀 있다면, 요리사들은 100 명 다 모여서 동시에 요리할 수 없게 됩니다.

🔍 3. 실험: "무작위"로 해보니까 망했어요!

연구자들은 "그럼 순서대로 하지 말고, 무작위로 글자를 고쳐보자!"라고 시도했습니다.

  • 결과: 순서대로 쓰는 습관을 깨뜨리기는 했지만, 글의 내용이 엉망이 되거나 (수학 문제 풀이 실패), 말이 안 되는 글이 나왔습니다.
  • 이유: AI 는 "순서대로 생각해야 논리가 통한다"고 배웠기 때문에, 순서를 무시하면 머릿속이 혼란스러워진 것입니다.

💡 4. 해결책: NAP (동시 학습 + 동시 작업)

저자들은 이 문제를 해결하기 위해 NAP이라는 새로운 방법을 제안했습니다. 핵심은 **"데이터 (교재) 를 바꾸고, 작업 방식도 함께 바꾸는 것"**입니다.

① 새로운 교재 만들기 (병렬 사고 데이터)

기존의 "하나의 긴 이야기" 대신, 하나의 질문에 대해 여러 가지 다른 생각의 흐름 (경로) 을 동시에 보여주는 데이터를 만들었습니다.

  • 비유: 수학 문제를 풀 때, 한 사람만 순서대로 풀게 하는 게 아니라, 세 명의 친구가 각자 다른 방법으로 문제를 풀고, 그 결과들을 한데 모아 정답을 찾는 방식으로 데이터를 구성했습니다.
  • 이렇게 하면 AI 는 "아, 생각은 여러 갈래로 동시에 할 수 있구나!"라고 배우게 됩니다.

② 강제 동시 작업 (Parallel-Forced Decoding)

학습된 AI 가 실제로 글을 쓸 때도, 한 번에 여러 개의 생각 흐름을 동시에 발전시키도록 강제로 유도했습니다.

  • 비유: 100 명의 요리사에게 "밥, 반찬, 국을 동시에 준비해!"라고 지시하면서, 각 요리사가 서로 다른 요리를 동시에 진행하도록 만든 것입니다.

🚀 5. 결과: 진짜 병렬 처리의 성공

이 새로운 방식 (NAP) 을 적용한 AI 는 다음과 같은 놀라운 성과를 냈습니다.

  1. 속도: 글자 수를 늘려도 속도가 느려지지 않았습니다. (기존 방식은 글자가 길어질수록 시간이 걸렸지만, NAP 은 그렇지 않았습니다.)
  2. 정확도: 여러 개의 생각 흐름을 동시에 처리하면서도, 수학 문제나 논리 문제에서 더 높은 정확도를 보였습니다.
  3. 진짜 병렬: AI 가 실제로 여러 줄을 동시에 채워 넣는 모습을 시각화했을 때, 한 줄씩 채우는 게 아니라 여러 줄이 동시에 성장하는 것을 확인했습니다.

📝 요약: 이 논문이 말하고 싶은 것

"AI 가 글을 쓸 때 한 글자씩 순서대로 쓰는 습관 (자동 완성) 을 버리고, 여러 글자를 동시에 만들어내는 진짜 '병렬 처리'를 하려면, AI 가 배우는 '교재 (데이터)'부터 바꿔야 한다는 것입니다.

기존의 '순서대로 쓰는' 교재로만 가르치면 AI 는 아무리 빠른 기술을 가져도 여전히 느리게 움직입니다. 하지만 '동시에 여러 가지 생각을 하는' 교재로 가르치고, 동시에 일하게 하면 AI 는 비로소 그 잠재력을 발휘할 수 있습니다."

이 연구는 AI 의 속도를 높이는 새로운 길을 열어주며, 앞으로 더 빠르고 효율적인 AI 시대가 올 수 있음을 보여줍니다.