ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

이 논문은 KV 캐시 재사용을 가능하게 하고 학습 복잡도를 줄여 기존 확산 모델의 한계를 극복함과 동시에 autoregressive 모델에 필적하는 성능과 속도를 달성한 새로운 병렬 디코딩 모델인 'ReFusion'을 제안합니다.

Jia-Nan Li, Jian Guan, Wei Wu, Chongxuan Li

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

ReFusion: AI 가 글을 쓸 때 '한 번에 여러 줄'을 쓰는 혁명

이 논문은 인공지능이 글을 쓸 때, 기존 방식의 단점을 모두 해결하고 훨씬 빠르고 똑똑하게 글을 쓰는 새로운 방법인 **'ReFusion'**을 소개합니다.

기존의 AI(자율회귀 모델) 와 새로운 시도인 확산 모델 (MDM) 의 장점을 합쳐, 속도와 정확도라는 두 마리 토끼를 모두 잡은 기술입니다.


1. 기존 방식의 문제점: "너무 느리거나, 너무 엉망"

AI 가 글을 쓸 때 두 가지 주요 방식이 있었는데, 둘 다 큰 문제가 있었습니다.

  • 기존 방식 (자동 회귀 모델, ARM): "조심스러운 한 줄 쓰기"

    • 비유: 마치 한 줄씩만 써서 다음 줄을 쓰는 작가입니다. "오늘"을 쓰고 나서야 "날씨가"를 쓰고, 그다음 "좋다"를 씁니다.
    • 장점: 문장이 매우 자연스럽고 논리적입니다.
    • 단점: 너무 느립니다. 한 번에 한 단어만 쓸 수 있기 때문에 긴 글을 쓰려면 시간이 매우 오래 걸립니다.
  • 기존 확산 모델 (MDM): "한 번에 다 써버리기"

    • 비유: 빈 종이에 모든 단어를 한 번에 채워 넣는 작가입니다. "오늘", "날씨가", "좋다"를 동시에 써버립니다.
    • 장점: 엄청나게 빠릅니다. 병렬로 처리하니까요.
    • 단점: 내용이 엉망이 될 수 있습니다. "오늘"과 "날씨가"의 관계를 동시에 고려하지 못하면, "오늘 날씨가 좋다" 대신 "오늘 비가 좋다"처럼 문맥이 어색한 실수를 자주 합니다. 또한, 매번 처음부터 다시 계산해야 해서 컴퓨터 자원을 많이 잡아먹습니다.

2. ReFusion 의 해결책: "블록 단위로 생각하기"

ReFusion 은 이 두 방식의 장점을 섞어서 완벽한 작가를 만들었습니다. 핵심 아이디어는 **'슬롯 (Slot)'**이라는 개념입니다.

🧩 핵심 비유: "레고 블록으로 건축하기"

ReFusion 은 글을 쓸 때 한 단어씩 (레고 한 조각씩) 쓰는 것이 아니라, 작은 문장 덩어리 (레고 블록) 단위로 작업을 합니다.

  1. 블록 선택 (확산 모델의 힘):
    • AI 는 먼저 "어떤 블록을 먼저 채울지" 결정합니다. 문맥상 가장 확실한 부분 (예: "오늘") 을 먼저 골라냅니다. 이때는 여러 블록을 한 번에 선택할 수 있어 빠릅니다.
  2. 블록 채우기 (기존 방식의 힘):
    • 선택된 블록 안에서는 한 줄씩 차근차근 단어를 채워 넣습니다. 이렇게 하면 블록 내부의 문맥이 자연스럽게 연결됩니다.
  3. 순서 바꾸기 (기적 같은 기술):
    • 여기서 가장 중요한 마법이 있습니다. 채워진 블록을 즉시 문장 앞쪽으로 이동시킵니다.
    • 비유: 마치 책을 읽다가 중요한 페이지를 표지로 당겨와서 계속 읽는 것과 같습니다. 이렇게 하면 AI 는 이미 쓴 내용을 기억 (KV Cache) 하여 다시 계산할 필요가 없어집니다. 덕분에 속도가 비약적으로 빨라집니다.

3. ReFusion 의 놀라운 성과

이 방식을 적용한 결과, ReFusion 은 다음과 같은 기적을 이루었습니다.

  • 🚀 속도: 기존 확산 모델보다 18 배 이상 빠릅니다. 기존 AI(ARM) 보다도 2.3 배 더 빠릅니다.
  • 🎯 정확도: 단순히 빠른 것뿐만 아니라, 수학 문제나 코딩 같은 복잡한 작업에서도 기존 AI 들보다 더 높은 점수를 받았습니다.
  • 💡 효율: 컴퓨터가 기억해야 할 정보를 재사용하는 방식 (KV Cache) 을 완전히 최적화하여, 에너지를 아끼면서도 최고의 성능을 냅니다.

4. 요약: 왜 이것이 중요한가?

기존에는 **"빠른 것"**을 원하면 **"정확도"**를 포기해야 했고, **"정확한 것"**을 원하면 **"시간"**을 많이 써야 했습니다.

ReFusion 은 "빠르면서도 정확한" 새로운 길을 열었습니다. 마치 한 번에 여러 줄을 쓰면서도, 각 줄의 문맥을 완벽하게 지키는 슈퍼 작가가 등장한 것과 같습니다.

이 기술이 상용화되면, AI 가 긴 보고서나 복잡한 코드를 작성할 때 몇 초 만에 완벽한 결과를 내놓을 수 있게 될 것입니다.