CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

이 논문은 토큰 반올림 문제를 해결하기 위해 연속 임베딩 공간에서의 확산과 컨텍스트 기반 자동회귀 디코더를 결합한 'CoDAR' 프레임워크를 제안함으로써, 기존 연속 확산 언어 모델의 성능 한계를 극복하고 강력한 이산 확산 모델과 경쟁 가능한 생성 품질을 달성했음을 보여줍니다.

Junzhe Shen, Jieru Zhao, Ziwei He, Zhouhan Lin

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌟 LUMIA Lab 의 새로운 발견: "연속 확산 언어 모델 (CODAR)" 설명

이 논문은 **"텍스트를 만드는 AI 가 왜 그림을 그리는 AI 보다 뒤처졌을까?"**라는 질문에서 시작합니다. 그리고 그 답은 **"마지막 단계에서 실수를 했기 때문"**이라고 말합니다.

이 복잡한 연구를 일반인이 이해하기 쉽게, 요리사와 그림 그리기에 비유해서 설명해 드릴게요.


1. 문제: 왜 AI 가 글을 잘 못 쓸까? (연속 vs 이산)

  • 그림 그리기 AI (이미지 생성): AI 가 그림을 그릴 때는 '연속적인' 색상을 섞습니다. 빨간색에서 주황색으로 아주 부드럽게 넘어가는 것처럼요. 이 방식은 AI 가 매우 잘합니다.
  • 글쓰기 AI (언어 생성): 하지만 글은 '이산적 (Discrete)'입니다. 단어는 '사과', '배', '포도'처럼 딱딱 끊어져 있습니다. '사과'와 '배' 사이에는 '사과배' 같은 중간 단어가 없습니다.

기존의 실패한 시도:
기존 연구자들은 그림 그리기 방식을 글쓰기에 그대로 적용하려 했습니다. AI 가 '연속적인 숫자'로 문장을 만든 뒤, 마지막에 강제로 가장 가까운 단어를 고르는 (Rounding) 작업을 했습니다.

🍳 비유:
마치 요리사가 재료를 아주 정교하게 갈아 만든 '수프'를 만든 뒤, 마지막에 숟가락으로 떠서 '고기'나 '야채'로 딱딱 구분해야 하는 상황입니다.
수프가 아무리 맛있어도, 숟가락으로 떠서 고기인지 야채인지 구분하는 과정이 너무 어렵고 실수가 많아서, 결과물이 맛이 없거나 엉망이 되는 것입니다.

2. 해결책: CODAR (두 단계로 나누는 똑똑한 전략)

저자들은 이 '마지막 구분 (Rounding)' 과정이 너무 어렵기 때문에, AI 가 직접 하려고 하지 말고 전문가에게 맡기자고 제안합니다. 이것이 바로 CODAR입니다.

CODAR 는 두 단계로 나뉩니다:

1 단계: 연속 확산 (수프 만들기)

  • AI 가 먼저 '연속적인 숫자'로 된 문장 (잠재 공간) 을 만듭니다.
  • 이 단계에서는 단어를 고르지 않고, 문장의 분위기, 의미, 흐름을 숫자로 표현합니다.
  • 비유: 요리사가 맛있는 **수프 (연속적인 표현)**를 완벽하게 끓여냅니다. 이때 '고기'나 '야채'로 구분할 필요는 없습니다.

2 단계: 문맥을 아는 번역가 (단어로 바꾸기)

  • 여기서 **새로운 AI (변환기)**가 등장합니다. 이 AI 는 **앞뒤 문맥을 모두 읽을 수 있는 '전문 번역가'**입니다.
  • 요리사가 만든 수프를 보고, "아, 이 수프는 '고기'가 들어갈 자리야!"라고 문맥을 파악해서 단어를 선택합니다.
  • 비유: 수프를 본 숙련된 셰프가 "이건 고기 국물이야, 저건 채소 국물이야"라고 문맥을 보고 딱딱 끊어지는 단어로 정리합니다.

3. 왜 이 방법이 더 좋은가요?

기존 방식은 "이 숫자는 '사과'에 가깝니? 아니면 '배'에 가깝니?"라고 한 글자씩 따로따로 판단했습니다. 하지만 CODAR 는 문장 전체를 보고 "여기서는 '사과'가 어울리지, '배'가 아니야"라고 **맥락 (Context)**을 고려해 판단합니다.

  • 결과:
    • 유창함 (Fluency): 문장이 훨씬 자연스럽습니다.
    • 다양성 (Diversity): 같은 단어를 반복하지 않고 다양한 표현을 쓸 수 있습니다.
    • 조절 가능성: 연구자들은 '온도 (Temperature)'라는 조절 장치를 통해, "더 자연스러운 글을 원할까?" 아니면 "더 창의적이고 다양한 글을 원할까?"를 쉽게 바꿀 수 있습니다.

4. 핵심 요약 (한 줄 정리)

"AI 가 글을 쓸 때, '숫자'를 '단어'로 바꾸는 마지막 단계에서 문맥을 무시하고 혼자 판단하게 하면 실패합니다. 대신, '숫자'를 먼저 만들고, 그걸 문맥을 잘 아는 '전문 번역가'가 단어로 바꿔주면, AI 는 그림 그릴 때처럼 글을 아주 잘 쓸 수 있습니다."

이 연구는 연속적인 방식 (Diffusion) 이 나쁜 게 아니라, 마지막 '단어 변환' 방식을 잘못 썼던 것임을 증명했고, 이를 해결함으로써 AI 의 글쓰기 능력을 크게 끌어올렸습니다.