Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

이 논문은 확산 언어 모델이 자기회귀 모델과 달리 계층적 표현 구조와 초기 층의 중복성을 가지며, 이를 활용한 정적 계층 건너뛰기 기법으로 추가적인 구조 변경 없이 추론 시 연산량을 18.75%까지 줄이면서도 성능을 유지할 수 있음을 보여줍니다.

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 핵심 비유: "점화식 (AR)" vs "조각상 다듬기 (Diffusion)"

우리가 글을 쓸 때, 인공지능도 크게 두 가지 방식으로 글을 만듭니다.

  1. 기존 방식 (Autoregressive, AR):

    • 비유: 한 글자씩 써가는 '점화식'.
    • 설명: "안녕"이라고 쓸 때, '안'을 먼저 쓰고, 그다음 '녕'을 생각합니다. 이전 단어가 다음 단어에 절대적인 영향을 미칩니다.
    • 특징: 한 번 실수하면 바로잡기 어렵고, 매 단어를 쓸 때마다 뇌 (레이어) 전체가 다시 긴장하며 새로운 정보를 추가합니다. 그래서 중간 과정을 생략하면 글이 완전히 망가집니다.
  2. 새로운 방식 (Diffusion, dLLM):

    • 비유: 거친 조각상을 다듬는 '조각가'.
    • 설명: 처음엔 전체가 흐릿한 구름 (노이즈) 으로 되어 있습니다. 조각가는 전체를 한눈에 보며, "여기는 너무 거칠다", "저기는 모양이 맞지 않다"라고 전체를 보며 점진적으로 다듬어 나갑니다.
    • 특징: 처음엔 전체적인 윤곽 (대략적인 의미) 을 잡고, 나중엔 디테일을 다듬습니다. 처음 몇 단계는 전체적인 흐름만 잡기 때문에, 그 과정을 생략해도 최종 결과물이 크게 달라지지 않습니다.

🔍 이 논문이 발견한 놀라운 사실 3 가지

1. "처음에 시작하면 끝까지 따라가는 습관" (초기화 편향)

연구진은 **"기존 방식 (AR) 으로 훈련된 모델을 새로운 방식 (Diffusion) 으로 다시 훈련하면, 정말 새로운 사람이 될까?"**를 궁금해했습니다.

  • 결과: 아니요! 습관은 쉽게 바뀌지 않습니다.
  • 비유: 이미 '점화식'으로 글을 쓰는 습관이 들은 사람 (Dream-7B) 이 '조각가' 훈련을 받아도, 여전히 한 글자씩 꼼꼼히 확인하는 습관 (AR 성향) 을 버리지 못합니다.
  • 의미: 모델의 '성격'은 처음에 어떻게 가르쳤는지 (초기화) 에 따라 결정되며, 나중에 훈련 방식을 바꿔도 그 성격이 쉽게 사라지지 않습니다.

2. "조각가에게는 '여분'이 있다!" (중복성 발견)

반면, 처음부터 '조각가' 방식으로 훈련된 모델 (LLaDA) 은 완전히 달랐습니다.

  • 발견: 이 모델은 처음 몇 단계 (레이어) 에서 이미 전체적인 그림을 그립니다. 그다음 단계들은 그 그림을 조금 더 선명하게 할 뿐, 전혀 새로운 정보를 추가하지 않습니다.
  • 비유: 100 단계의 작업을 하는데, 16 단계는 "대략적인 윤곽 잡기"만 하고, 7100 단계는 "디테일 다듬기"만 합니다. 만약 1~6 단계를 생략하고 7 단계부터 시작해도, 최종 결과물은 거의 비슷합니다.
  • 결론: 새로운 방식 (Diffusion) 은 기존 방식보다 '여분의 작업 (중복성)'이 훨씬 많습니다.

3. "일하는 시간을 20% 줄여도 결과는 그대로!" (레이어 스킵)

이러한 '여분의 작업'을 이용해, 인공지능이 일하는 시간을 줄여보았습니다.

  • 방법: "처음에 대략적인 그림만 그리는 단계 (중복된 레이어) 는 아예 건너뛰자!"라고 정했습니다.
  • 결과:
    • 새로운 방식 (Diffusion): 일하는 양을 약 19% 줄였는데, 성능은 90% 이상 유지되었습니다. (완벽한 효율!)
    • 기존 방식 (AR): 일하는 양을 조금만 줄여도 (7% 만 줄여도) 성능이 반토막이 났습니다. (너무 취약함)

💡 이 연구가 우리에게 주는 메시지

  1. 더 빠르고 저렴한 AI: 새로운 방식 (Diffusion) 으로 만든 AI 는 불필요한 계산을 많이 하므로, 이를 잘라내면 전기세와 시간을 아낄 수 있습니다.
  2. 모델을 바꿀 때는 조심하자: 기존에 훈련된 모델을 새로운 방식으로 바꿀 때, 겉모습만 바뀌고 속성은 그대로일 수 있다는 점을 깨달았습니다.
  3. 효율의 새로운 길: 메모리를 줄이는 기술 (KV Cache) 과는 별개로, 계산 과정 자체를 줄이는 새로운 방법을 제시했습니다.

🏁 한 줄 요약

"기존 AI 는 한 줄 한 줄 꼼꼼히 써야 하지만, 새로운 AI 는 처음에 대략적인 그림을 먼저 그리기 때문에, 그 '초기 작업'을 생략해도 결과가 거의 똑같습니다. 이 사실을 이용해 AI 의 일하는 시간을 20% 줄여도 성능은 그대로 유지할 수 있습니다!"

이 연구는 인공지능이 더 가볍고 빠르게 작동할 수 있는 새로운 길을 열어주었습니다.