Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

이 논문은 분산된 토큰 수용 방식의 비효율성을 해결하기 위해 훈련 없이 적용 가능한 '최장 안정 접두사 (LSP)' 스케줄러를 제안하여, KV 캐시 국소성을 개선하고 토큰 반전률을 낮춤으로써 확산 언어 모델의 추론 속도를 최대 3.4 배까지 가속화하면서도 출력 품질을 유지하거나 향상시킨다고 설명합니다.

Pengxiang Li, Joey Tsai, Hongwei Xue, Kunyu Shi, Shilin Yan

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚀 "산발적 수용"을 넘어: 확산 언어 모델 (DLM) 을 위한 '가장 긴 안정적인 접두어' (LSP)

이 논문은 **"확산 언어 모델 (DLM)"**이라는 새로운 AI 기술이 가진 큰 잠재력을 실현하기 위해, 속도를 획기적으로 높여주는 새로운 방법을 소개합니다.

쉽게 말해, **"AI 가 글을 쓸 때, 엉망으로 조각조각 끊어지지 않고, 한 번에 깔끔하게 이어 붙여 빠르게 완성하는 방법"**을 제안한 것입니다.


1. 문제: AI 가 글을 쓸 때 겪는 '난장판' 상황

기존의 확산 모델 (DLM) 은 글을 쓸 때 **"산발적 수용 (Scattered Acceptance)"**이라는 방식을 썼습니다.
이걸 **마치 "조각난 퍼즐"**을 생각해보면 이해하기 쉽습니다.

  • 기존 방식 (산발적 수용): AI 가 글을 쓰다가 "이 단어는 확실해!"라고 생각하면 그 자리에서 고정하고, "저 단어는 아직 모르겠어"라고 생각하면 다시 수정합니다.
    • 문제점: 이렇게 되면 완성된 단어 (고정된 퍼즐 조각) 와 수정 중인 단어 (빈 공간) 가 뒤죽박죽 섞여 있게 됩니다.
    • 결과: AI 는 매번 이 조각난 퍼즐을 다시 맞춰야 하므로 메모리 (KV 캐시) 를 효율적으로 쓸 수 없고, 계속 뒤죽박죽된 상태를 고치느라 시간이 매우 오래 걸립니다. 마치 공사장에서 벽돌을 한 장씩 임의의 위치에 붙이다가, 나중에 다시 떼어내고 붙이는 꼴입니다.

2. 해결책: LSP (가장 긴 안정적인 접두어)

저자들은 이 문제를 해결하기 위해 **"가장 긴 안정적인 접두어 (Longest Stable Prefix, LSP)"**라는 새로운 방법을 제안했습니다.

이걸 **마치 "벽돌로 벽을 쌓는 공사"**에 비유해 볼까요?

  • LSP 의 방식:

    1. AI 가 글을 쓸 때, 왼쪽부터 시작해서 "이 부분까지면 확실히 맞을 것 같다"라고 판단되는 연속된 블록을 찾습니다.
    2. 그 블록을 한 번에 통째로 (원자적) 벽에 고정합니다.
    3. 이때, 단순히 단어 끝이 아니라 문장 부호나 줄바꿈 같은 자연스러운 경계에 맞춰서 끊습니다. (예: 문장 중간에 끊지 않고, 마침표 뒤에 멈춤)
    4. 고정된 부분은 더 이상 건드리지 않고, 남은 빈 공간 (수정할 부분) 만 다시 다듬습니다.
  • 비유:

    • 기존 방식: 벽돌을 여기저기 임의로 붙이다가, 나중에 다시 떼어내고 붙이는 난장판 공사.
    • LSP 방식: 왼쪽부터 순서대로 벽돌을 쭉 쌓아 올리는 질서 정연한 공사. 이미 쌓인 벽은 튼튼해서 다시 건드릴 필요가 없습니다.

3. LSP 가 가져오는 두 가지 큰 이점

이 방법이 왜 그렇게 빠른가요? 두 가지 핵심 이유가 있습니다.

① 시스템 효율성: "메모리 정렬"

  • 기존: 조각난 퍼즐처럼 흩어진 단어들은 컴퓨터 메모리 (KV 캐시) 에서도 흩어져 있어, AI 가 읽을 때 헤매게 됩니다.
  • LSP: 왼쪽부터 쭉 이어진 단어들은 메모리에서도 연속적으로 저장됩니다. 마치 책장 한 줄에 책을 쭉 꽂아두는 것처럼, AI 가 순서대로 읽을 때 매우 빠르고 효율적입니다.

② 알고리즘 효율성: "수정 횟수 감소"

  • 기존: 조각난 경계 때문에 AI 는 계속 "아까 내가 쓴 이 단어가 맞을까?"라고 의심하며 수정 (수리) 을 반복합니다.
  • LSP: 한 번 확정된 부분은 자연스러운 문장 단위로 묶여 있기 때문에, AI 가 나중에 다시 수정할 필요가 거의 없습니다. 마치 완성된 문장을 그대로 두고, 다음 문장만 쓰는 것처럼 효율적입니다.

4. 실험 결과: 얼마나 빨라졌나요?

이 방법을 LLaDA-8BDream-7B라는 두 가지 최신 AI 모델에 적용해 보았습니다.

  • 속도: 최대 3.4 배까지 빨라졌습니다! (예: 10 초 걸리던 글이 3 초 만에 나옴)
  • 품질: 속도가 빨라졌지만, 글의 정확도나 창의성은 오히려 약간 더 좋아지거나 그대로 유지되었습니다.
  • 적용 분야: 수학 문제 풀이, 코드 작성, 다국어 글쓰기, 창의적 글쓰기 등 다양한 분야에서 효과가 입증되었습니다.

5. 핵심 요약 (한 줄 정리)

"AI 가 글을 쓸 때, 조각조각 끊어지지 말고 왼쪽부터 자연스럽게 이어지는 '완벽한 문장 덩어리'를 한 번에 확정해라. 그래야 메모리도 절약되고, 수정할 필요도 없어져서 훨씬 빨라진다!"

이 연구는 확산 모델 (DLM) 이 가진 이론상의 빠른 속도를 실제 하드웨어에서도 실현할 수 있는 결정적인 열쇠를 찾아냈다는 점에서 매우 중요합니다. 이제 AI 는 더 이상 '산발적'으로 글을 쓰지 않고, 질서 정연하게 글을 쓸 수 있게 되었습니다.