d2: Improving Reasoning in Diffusion Language Models via Trajectory Likelihood Estimation

이 논문은 특화된 궤적 가능도 추정기(d2-AnyOrder 및 d2-StepMerge)를 채택하여 논리 및 수학적 벤치마크에서 추론 능력을 크게 향상시키고 새로운 최첨단 성능을 달성한 마스크 확산 언어 모델을 위한 새로운 강화 학습 프레임워크인 d2를 소개한다.

원저자: Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

게시일 2026-06-02✓ Author reviewed
📖 4 분 읽기☕ 가벼운 읽기

원저자: Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

매우 재능 있는 예술가가 빈 캔버스에서 시작하여 세부 사항을 점진적으로 추가하며 걸작을 완성해 나가는 모습을 상상해 보세요. 이것이 바로 **확산 언어 모델(Diffusion Language Models, DLMs)**이 작동하는 방식입니다. 단어를 하나씩 쌓아 올리는 전통적인 AI 작가(벽돌을 쌓는 것과 같은 방식)와 달리, 이 모델들은 "노이즈"(오래된 TV의 정전기 같은 상태)에서 시작하여 단계적으로 노이즈를 제거(denoise)하며 일관된 이야기나 해결책을 드러냅니다.

이 논문은 이러한 예술가들에게 어려운 퍼즐(수학 문제나 논리 게임 등)을 훨씬 더 잘 풀 수 있도록 가르치는 새로운 훈련 방법인 d2를 소개합니다. 다음은 이 방법이 어떻게 작동하는지에 대한 설명을 쉬운 비유를 사용한 브레이크다운입니다.

문제점: "눈먼" 비평가

AI에게 추론을 가르치기 위해 연구자들은 **강화 학습(Reinforcement Learning, RL)**을 사용합니다. 이것은 AI가 퍼즐을 풀려고 시도하면 "비평가"(보상 시스템)가 점수를 주는 게임과 같습니다. 만약 AI가 좋은 점수를 받으면, AI는 그 행동을 다시 하도록 학습합니다.

하지만 확산 모델에는 함정이 있습니다. 효과적으로 학습하려면, AI는 자신이 생성한 특정 단어 시퀀스가 얼마나 발생할 가능성이 높았는지 정확히 알아야 합니다.

  • 전통적인 AI (자기회귀 모델, Autoregressive): 이것은 편지를 쓰는 것과 같습니다. 첫 번째, 두 번째, 세 번째로 무엇을 썼는지 정확히 알 수 있습니다. 따라서 "가능성(likelihood)"을 계산하는 것이 쉽고 빠릅니다.
  • 확산 AI (Diffusion AI): 이것은 돌덩어리에서 조각상이 나타나는 과정을 지켜보는 것과 같습니다. AI는 수천 번의 미세한 조정을 거칩니다. 최종 조각상의 정확한 확률을 알기 위해서는 이론적으로 조각 과정의 모든 프레임을 되감아서 매 프레임을 다시 재생해야 합니다. 모든 훈련 단계마다 이 작업을 수행하는 것은 계산적으로 불가능합니다(너무 느리고 비용이 많이 듭니다).

이 "점수"를 정확하게 계산할 수 없었기 때문에, 이전의 방식들은 추측에 의존했고, 이는 부족한 추론 능력으로 이어졌습니다.

해결책: d2 (스마트한 점수 기록원)

저자들은 매우 효율적인 점수 기록원 역할을 하는 d2 프레임워크를 만들었습니다. 이들은 AI의 여정(가능성)을 매번 전체 영상을 다시 재생하지 않고도 파악해 냅니다. 그들은 두 가지 서로 다른 유형의 예술가를 위한 두 가지 도구를 구축했습니다.

도구 1: d2-AnyOrder ("마법 거울")

어떤 확산 모델들은 특별합니다. 이들은 어떤 순서로든 최종 이미지를 드러낼 수 있습니다. 눈을 먼저 그리고 코를 그린 다음 배경을 그릴 수도 있고, 그 반대도 가능하며, 어떤 순서든 상관없이 작동합니다.

  • 비유: 당신에게 마법 거울이 있다고 상상해 보세요. 그림이 그려지는 과정을 단계별로 지켜보는 대신, 완성된 그림을 보고 예술가가 모든 단계에서 무엇을 말했을지 한 번에 즉시 볼 수 있습니다.
  • 결과: d2-AnyOrder라고 불리는 이 도구는 단 한 번의 시선(한 번의 컴퓨터 패스)만으로 완벽한 점수를 계산합니다. 이는 믿을 수 없을 정도로 정확하며 AI가 매우 빠르게 학습하도록 만듭니다.

도구 2: d2-StepMerge ("청킹 전략")

가장 유명한 LLaDA와 같은 대부분의 인기 있는 확산 모델들은 아무 순서로든 그릴 수 없으며, 특정 순서를 따라야 합니다. 이들에게는 "마법 거울"이 없습니다.

  • 비유: 영화를 한꺼번에 볼 수 없다면, 영화를 **청크(덩어리)**로 나눕니다. 모든 프레임을 다 보는 대신, 영화를 10초 단위의 세그먼트로 나누어 봅니다. 각 세그먼트에 대한 점수를 추정하고 이를 모두 더합니다.
  • 결과: d2-StepMerge라고 불리는 이 도구는 근사치(approximation)를 구하는 방식입니다. 완벽하지는 않지만, 저자들은 수학적으로 오차가 작고 통제 가능하다는 것을 증로했습니다. 이는 약간의 정확도를 희생하는 대신 엄청난 속도 이득을 취하며, 이를 통해 표준 모델들에 실용적으로 적용할 수 있게 합니다.

결과: 초보자에서 그랜드마스터까지

연구진은 이 도구들을 AI에게 가장 어려운 퍼즐들에 테스트했습니다:

  1. 논리 게임: 스도쿠(Sudoku)와 카운트다운(Countdown, 수학 게임).
  2. 수학 문제: GSM8K 및 MATH500 (수학적 추론을 위한 표준 벤치마크).

결과:

  • 추가적인 "치트 시트"(지도 학습 기반 미세 조정) 없이도: d2 프레임워크는 이전의 어떤 방법보다 모델이 더 잘 추론하도록 가르쳤습니다.
  • 경쟁 상대를 압도함: 스도쿠와 카운트다운 테스트에서 d2로 훈련된 모델은 각각 **92%**와 **56%**에 가까운 점수를 기록하며, 약 22%와 42%에 머물러 있던 기존의 최고 방법들을 압도했습니다.
  • 수학 숙련도: 복잡한 수학 벤치마크에서 d2는 새로운 "SOTA(State-of-the-Art, 최고 수준)" 기록을 세웠으며, 확산 모델이 전통적인 텍스트 생성 모델만큼이나 추론 능력이 뛰어날 수 있음을 입증했습니다. 동시에 더 빠르고 제어 가능하다는 장점도 보여주었습니다.

요약

이 논문의 핵심은 다음과 같습니다: "우리는 확산 AI 모델이 명확하게 생각하는 법을 가르칠 방법을 찾아냈다."

  • 기존의 AI 작업 채점 방식은 너무 느리고 부정확하다는 것을 깨달았습니다.
  • 그들은 d2라는 새로운 채점 시스템을 발명했습니다. 이는 완벽하게 정확하거나(특수 모델용), 혹은 스마트하게 효율적(표준 모델용)입니다.
  • 이 새로운 시스템을 사용하여, AI 모델은 정답을 미리 배우지 않고도 논리 및 수학 퍼즐을 훨씬 더 잘 풀 수 있도록 학습했습니다.

요약하자면, d2는 확산 모델이 자신의 사고 과정을 정확하게 "되돌아볼" 수 있는 능력을 부여하여, 실수를 통해 배우고 진정한 추론 전문가가 될 수 있도록 해줍니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →