DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 왜 기존 AI 는 느릴까요? (기존 방식)

기존의 '확산 모델 (Diffusion Model)'이라는 AI 는 글을 쓸 때 다음과 같은 방식을 사용합니다.

상황: AI 가 글을 쓰려고 할 때, 처음에는 종이가 모두 **'가려진 상태 (마스크)'**로 시작합니다.
작업: AI 는 이 가려진 종이를 하나씩 드러내며 내용을 채워 넣습니다. 하지만 여기서 문제가 생깁니다.
비유: 마치 모든 페이지를 매번 처음부터 다시 읽는 사서처럼 행동합니다.
- 1 단계: 책 전체를 읽고, 1 페이지만 내용을 수정합니다.
- 2 단계: 다시 책 전체를 읽고, 2 페이지를 수정합니다.
- 3 단계: 또 다시 책 전체를 읽고, 3 페이지를 수정합니다.
- ...
- 결과: 책이 길어질수록, 이미 확정된 앞쪽 페이지들을 매번 다시 읽는 '불필요한 작업'이 너무 많아져서 시간이 엄청나게 걸립니다.

2. 해결책: DyLLM 은 어떻게 다를까요?

DyLLM 은 이 비효율적인 방식을 깨뜨립니다. 핵심 아이디어는 **"대부분의 페이지는 이미 완벽하니까 다시 읽을 필요 없다"**는 것입니다.

관찰: AI 가 글을 고쳐 나가는 과정에서, 대부분의 단어 (토큰) 는 이미 안정되어 있어 변하지 않습니다. 오직 소수의 단어만 계속 바뀌며 의미를 완성해 나갑니다.
비유: DyLLM 은 현명한 배달 기사처럼 행동합니다.
- "아, 이 동네 (문장) 는 이미 배달이 완료되었으니 다시 갈 필요 없어. 오직 주문이 들어온 곳 (변화하는 단어) 만 빠르게 방문해서 내용만 업데이트하자!"
- 이미 확정된 단어들은 **기억 (캐시)**에 저장해 두고, 매번 다시 계산하지 않습니다.
- 오직 **'중요한 단어 (Salient Tokens)'**만 골라서 집중적으로 처리합니다.

3. DyLLM 의 두 가지 핵심 기술 (어떻게 작동할까?)

이 기술은 두 가지 지능적인 전략을 사용합니다.

① "중요한 단어"만 골라내기 (Saliency-based Selection)

원리: AI 가 단어를 고칠 때, "이 단어가 지난번과 얼마나 달라졌나?"를 계산합니다.
비유: 사서가 책을 볼 때, **"지난번과 글자가 하나도 안 바뀐 페이지는 넘어가고, 글자가 바뀐 페이지만 집중해서 수정한다"**는 뜻입니다.
효과: 계산해야 할 양이 획기적으로 줄어듭니다.

② "대충" 계산하기 (Approximate Attention)

원리: 중요한 단어만 정확히 계산하고, 나머지 단어들은 아주 간단하게 (대략적으로) 처리합니다.
비유: 중요한 고객에게는 정성껏 설명을 드리고, 그냥 지나가는 사람들은 "네, 알겠습니다" 정도로만 빠르게 처리하는 것과 같습니다.
효과: AI 의 두뇌 (컴퓨팅 자원) 를 아껴서 훨씬 더 많은 일을 동시에 할 수 있게 됩니다.

4. 실제 성과: 얼마나 빨라졌나요?

이 논문의 실험 결과, DyLLM 을 적용한 AI 는 다음과 같은 놀라운 성과를 냈습니다.

속도: 기존 방식보다 최대 9.6 배 더 빠릅니다. (예: 10 분 걸리던 일이 1 분 만에 끝남)
정확도: 속도가 빨라졌다고 해서 글의 질이 떨어지지는 않았습니다. 오히려 불필요한 노이즈를 제거해서 더 깔끔한 결과를 내는 경우도 있었습니다.
적용: 수학 문제 풀이, 코드 작성, 일반 대화 등 다양한 분야에서 효과가 입증되었습니다.

5. 한 줄 요약

"기존 AI 는 글을 쓸 때마다 책 전체를 다시 읽느라 지쳤다면, DyLLM 은 '변하는 부분'만 골라서 수정하므로 훨씬 빠르고 똑똑하게 글을 완성합니다."

이 기술은 앞으로 우리가 AI 와 대화할 때, 기다리는 시간이 훨씬 줄어들고 더 많은 정보를 실시간으로 처리할 수 있게 해줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

**마스크된 확산 언어 모델 (MDLMs)**은 LLaDA, Dream, Gemini Diffusion 등 autoregressive(자기회귀) 모델의 성능에 근접하면서, 병렬 토큰 디코딩을 가능하게 하여 생성 속도를 높일 수 있는 잠재력을 가지고 있습니다. 그러나 MDLMs 는 다음과 같은 근본적인 계산 병목 현상에 직면해 있습니다.

반복적인 전체 시퀀스 처리: MDLM 은 각 디노이싱 (denoising) 단계에서 전체 시퀀스 (프롬프트 + 응답) 를 다시 처리해야 합니다. 이는 autoregressive 모델이 새로운 토큰 하나만 계산하는 것과 대조적으로, 매 단계마다 "반복적인 프리필 (repeated prefill)" 연산을 수행하는 것과 같습니다.
계산적 비효율: 특히 피드포워드 네트워크 (FFN) 연산이 전체 런타임의 대부분을 차지하며, KV 캐싱 (Key-Value Caching) 을 통한 최적화가 autoregressive 모델처럼 자연스럽게 적용되지 않습니다.
기존 가속화 방법의 한계: 기존 연구 (Fast-dLLM, dKV-Cache 등) 는 블록 단위 또는 고정된 스케줄에 기반한 캐싱을 사용하지만, 확산 과정의 계층별 (layer-wise) 토큰 표현의 안정성 변화를 세밀하게 반영하지 못하거나, 주기적인 전체 시퀀스 갱신 (full refresh) 으로 인해 병렬 디코딩 정도가 커질수록 성능이 급격히 저하되는 문제가 있습니다.

2. 방법론 (Methodology: DyLLM)

저자들은 MDLM 의 디노이싱 과정에서 대부분의 토큰 표현은 안정적 (stable) 이며, 의미 있는 업데이트에 기여하는 토큰 (Salient Tokens) 은 소수라는 관찰을 바탕으로 DyLLM을 제안했습니다. 이는 학습이 필요 없는 (training-free) 추론 프레임워크입니다.

핵심 기법

레이어 적응형 중요도 기반 토큰 선택 (Layer-Adaptive Saliency Mechanism):
- 관측: 인접한 디노이싱 단계 간의 어텐션 컨텍스트 (attention context) 의 코사인 유사도 (cosine similarity) 를 측정합니다.
- 판단: 유사도가 임계값 ( $\tau$ ) 이상인 토큰은 '비중요 (non-salient)'로 간주하고, 그 이전 단계의 FFN 출력 및 어텐션 상태를 캐시에서 재사용합니다.
- 실행: 유사도가 임계값 이하인 '중요 (salient)' 토큰에 대해서만 FFN 과 어텐션 연산을 다시 계산합니다.
- 이론적 근거: Proposition 3.1 과 3.2 를 통해 선형 투영 후 RMSNorm 연산은 스케일 불변성을 가지며, 코사인 유사도가 높을수록 FFN 입력의 방향성 변화가 작아 오류가 미미함을 수학적으로 증명했습니다.
중요도 인식 근사 어텐션 (Saliency-Aware Approximate Attention):
- 전체 시퀀스에 대한 어텐션 계산을 피하기 위해, 중요 토큰만 정확한 어텐션 점수를 재계산하고, 나머지 토큰에 대해서는 근사 업데이트를 적용합니다.
- 비중요 토큰의 어텐션 업데이트는 이전 단계의 가중치와 중요 토큰의 값 (Value) 변화량 ( $\Delta V$ ) 만을 이용하여 계산합니다.
- 이로 인해 어텐션 복잡도가 $O(N^2 d)$ 에서 $O(N \cdot |S|d)$ (여기서 $|S|$ 는 중요 토큰 수) 로 감소합니다.
응답 전용 단계 (Response-only Step) 전략:
- 프롬프트 토큰은 상대적으로 안정적이므로, 특정 단계 (예: 4 단계 중 3 단계) 에는 프롬프트를 입력으로 포함하지 않고 응답 토큰만 처리하여 연산을 줄입니다. 전체 시퀀스가 필요한 단계에서도 전체를 다시 계산하지 않고 중요 토큰만 선택적으로 계산합니다.

3. 주요 기여 (Key Contributions)

레이어 적응형 중요도 메커니즘: 각 계층 (layer) 마다 동적으로 중요 토큰을 식별하여 불필요한 FFN 계산을 생략하는 정책 도입.
중요도 인식 근사 어텐션: 활성화의 희소성 (sparsity) 을 활용하여 어텐션 연산의 복잡도를 줄이고, 불필요한 컨텍스트 업데이트를 제거하는 메커니즘 제안.
확장 가능한 처리량 (Throughput) 향상: LLaDA 와 Dream 모델에서 다양한 벤치마크 (추론, 코드 생성 등) 를 통해 최대 7.6 배 (LLaDA) 및 9.6 배 (Dream) 의 처리량 향상을 달성하면서도 기저 모델의 정확도를 유지함을 입증.

4. 실험 결과 (Results)

성능 (Accuracy): GSM8K, MBPP, MATH, MMLU-pro 등 다양한 벤치마크에서 DyLLM 은 원본 확산 모델 및 기존 가속화 기법 (Fast-dLLM, dLLM-Cache) 과 비교하여 정확도를 유지하거나 오히려 소폭 향상시켰습니다. 이는 불필요한 토큰의 노이즈를 제거하고 중요한 토큰에 집중함으로써 발생했습니다.
처리량 (Throughput):
- LLaDA 8B: 최대 7.6 배 속도 향상 (τ=0.99).
- Dream 7B: 최대 9.6 배 속도 향상 (τ=0.995). Dream 모델은 GQA(Generalized Multi-Query Attention) 를 사용하여 어텐션이 가볍고 FFN 비중이 커서 DyLLM 의 이점이 더 크게 나타났습니다.
확장성 (Scalability): 병렬 디코딩 정도 ( $\nu$ ) 가 증가할수록 Fast-dLLM 등의 기존 방법은 전체 시퀀스 갱신으로 인한 오버헤드로 인해 처리량 향상이 둔화되지만, DyLLM 은 전체 시퀀스를 다시 계산하는 단계가 없으므로 $\nu$ 가 증가할수록 성능 격차가 더욱 벌어지며 확장성을 입증했습니다.

5. 의의 (Significance)

이 논문은 확산 기반 LLM 의 추론 효율성 문제를 해결하는 중요한 전환점을 제시합니다.

이론적 통찰: 확산 과정에서의 토큰 표현이 계층별로 시간적으로 희소하게 변화한다는 사실을 발견하고, 이를 정량화하여 효율적인 추론에 활용했습니다.
실용적 가치: 별도의 학습 (fine-tuning) 없이 기존 모델에 적용 가능하여, 확산 LLM 의 실용화 장벽인 높은 계산 비용을 획기적으로 낮춥니다.
미래 지향성: autoregressive 모델의 KV 캐싱 패러다임과 달리, 확산 모델의 병렬성 특성을 살리면서도 계산 중복을 제거하는 새로운 최적화 방향을 제시합니다.

결론적으로, DyLLM 은 **적응형 희소성 (adaptive sparsity)**을 활용하여 확산 LLM 이 가진 계산적 비효율성을 해결하고, autoregressive 모델에 버금가는 속도를 내면서도 높은 생성 품질을 유지할 수 있는 강력한 솔루션입니다.