Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

Each language version is independently generated for its own context, not a direct translation.

🎭 비유: "연극 대본 쓰기"와 "무대 감독"

생각해 보세요. 훌륭한 배우 (LLM) 가 연극을 하려고 합니다. 하지만 이 배우는 **엄격한 무대 감독 (규칙)**이 있습니다.

규칙: "대사는 반드시 3 줄로만 써야 해. 그리고 마지막에 '끝'이라는 글자를 꼭 넣어야 해."
문제: 배우가 대본을 쓰다가 "아, 이 대사는 4 줄이 될 것 같아"라고 생각하면, 감독이 즉시 "안 돼! 3 줄로 고쳐!"라고 외칩니다.
결과: 배우는 규칙을 지키려고 애쓰다가, 대본의 내용 (의미) 이 엉망이 되어버립니다. 예를 들어, "3 줄로 맞추려고" 중요한 숫자를 잘못 쓰거나, 문장이 끊겨서 의미가 통하지 않게 되는 거죠.

기존의 기술 (Constrained Decoding) 은 이 감독이 매 순간 배우의 입을 막고 강제로 대사를 고치는 방식이었습니다. 규칙은 완벽하게 지켰지만, 배우의 창의성과 정확한 뜻 전달이 망가진 셈입니다.

💡 이 연구의 해결책: "초안 (Draft) 먼저, 수정 나중에"

이 논문은 **"규칙을 지키는 감독과, 내용을 생각하는 배우를 분리하자"**고 제안합니다. 이를 **DCCD (초안 기반 제약 디코딩)**라고 부릅니다.

1 단계: 자유로운 초안 작성 (Drafting)

먼저, 감독 없이 배우에게 **"네가 생각한 대로 자유롭게 대본을 써봐"**라고 합니다.

배우는 규칙을 신경 쓰지 않고, 가장 논리적이고 정확한 내용을 자유롭게 씁니다.
이때 배우는 100% 에 가까운 정확도로 답을 찾습니다. (예: "정답은 14 입니다.")

2 단계: 규칙에 맞춰 다듬기 (Conditioned Decoding)

이제 완성된 초안을 감독에게 보여줍니다.

감독은 "자, 내용은 '14'로 정해졌네? 그럼 이 내용을 3 줄로 정리하고 '끝'을 붙여봐"라고 말합니다.
배우는 **이미 정해진 내용 (14)**을 바탕으로 형식만 바꿉니다.
결과: 내용은 완벽하게 유지되면서, 규칙 (3 줄, '끝' 포함) 도 완벽하게 지킨 대본이 나옵니다.

🚀 왜 이 방법이 더 좋은가요?

혼란을 줄여줍니다:
- 기존 방식: 배우가 "3 줄로 써야지"라고 생각하면서 동시에 "정답은 뭐지?"라고 고민하면 두 가지가 충돌합니다.
- 새로운 방식: "먼저 정답을 찾고, 그 다음에 형식만 맞추자"라고 순서를 나누니 뇌가 훨씬 편하게 작동합니다.
작은 모델도 거인처럼 만듭니다:
- 이 방법을 쓰면, 파라미터 (두뇌) 가 작은 모델도 큰 모델 못지않게 똑똑한 답을 낼 수 있습니다.
- 마치 작은 배우가 훌륭한 초안을 먼저 쓴 뒤, 전문 편집자가 형식만 다듬어주면 거대한 배우 못지않은 결과물이 나오는 것과 같습니다.
실제 효과:
- 수학 문제 (GSM8K) 나 논리 문제를 풀 때, 기존 방식은 규칙을 지키느라 답이 틀리는 경우가 많았지만, 이新方法을 쓰면 정확도가 24% 포인트까지 폭등했습니다.
- 특히 작은 모델 (10 억 파라미터 수준) 에서 효과가 극대화되어, 훨씬 큰 모델을 쓰지 않아도 되는 효율성을 보여줍니다.

📝 한 줄 요약

"규칙을 지키느라 내용을 망치지 않기 위해, 먼저 '내용'을 자유롭게 쓰고, 그 다음에 '규칙'에 맞춰 다듬는 두 단계 방식 (DCCD) 을 제안했습니다."

이 방법은 AI 가 우리가 원하는 형식 (JSON, 코드, 특정 문장 등) 을 완벽하게 지키면서도, 그 안에 담긴 **지적 능력 (추론)**을 잃지 않도록 해주는 획기적인 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대형 언어 모델 (LLM) 이 JSON, API 호출, 실행 가능한 코드 등 **구조화된 출력 (Structured Output)**을 생성해야 하는 시나리오가 증가하고 있습니다. 이러한 환경에서는 단일 구문 오류조차도 출력의 무용지화를 초래할 수 있으므로, **구문적 유효성 (Syntactic Validity)**은 필수적입니다.

기존의 해결책인 **제약 디코딩 (Constrained Decoding, CD)**은 각 토큰 생성 단계에서 유효하지 않은 토큰을 마스킹하고 나머지 확률을 재분배 (Renormalization) 함으로써 항상 유효한 출력을 보장합니다. 그러나 이 방법에는 치명적인 단점이 있습니다.

의미적 왜곡 (Semantic Distortion): 모델이 유효한 다음 토큰에 낮은 확률 질량 (Low Probability Mass) 을 할당할 때, 마스킹과 재분배는 모델의 원래 분포를 크게 왜곡시킵니다.
투영 세금 (Projection Tax): 이러한 왜곡이 여러 단계에 걸쳐 누적되면, 모델은 의미적으로 정확하지 않더라도 구조적으로 유지하기 쉬운 경로로 편향됩니다. 결과적으로 구문은 완벽하지만 의미적으로 틀린 답변을 생성하게 됩니다.

2. 제안된 방법론: DCCD (Draft-Conditioned Constrained Decoding)

저자들은 **의미적 계획 (Semantic Planning)**과 **구조적 강제 (Structural Enforcement)**를 분리하는 두 단계의 훈련 없는 추론 절차를 제안합니다. 이를 DCCD라고 합니다.

핵심 아이디어

제약 디코딩의 왜곡 정도는 모델이 할당하는 **유효 토큰의 확률 질량 (Feasible Mass, $\alpha$ )**에 의해 결정됩니다. 만약 모델이 구조적 토큰 (예: 중괄호, 따옴표) 을 예측하기 전에 의미적 내용 (답변, 논리) 을 먼저 파악하고 있다면, 구조적 토큰에 대한 확률 질량이 크게 증가하여 제약 적용 시의 왜곡이 줄어듭니다.

알고리즘 단계

1 단계: 초안 생성 (Draft Generation)
- 제약 없이 (Unconstrained) 모델이 입력에 대한 의미적 계획이나 중간 추론 과정을 자유 형식으로 생성합니다.
- 이 초안 (Draft) 은 정답을 포함하거나 논리적 흐름을 담고 있어야 하며, JSON 스키마 등 형식적 제약은 따르지 않아도 됩니다.
2 단계: 초안 기반 제약 디코딩 (Draft-Conditioned Constrained Decoding)
- 생성된 초안을 컨텍스트에 포함시켜, 제약 디코딩을 수행합니다.
- 모델은 초안을 바탕으로 "이제 JSON 형식으로 답을 작성해야 한다"는 맥락을 가지게 되므로, 구조적 토큰 ( {, " 등) 에 대한 확률 분포가 자연스럽게 높아집니다.
- 이로 인해 유효 토큰 집합 내에서의 확률 질량 ( $\tilde{\alpha}$ ) 이 증가하고, 제약 적용 시 발생하는 KL 발산 (Distortion) 이 최소화됩니다.

선택적 확장 (Best-of-K): 여러 개의 초안을 생성한 후, 제약 디코딩 과정에서 누적된 유효 확률 질량 (Log Feasible Mass) 이 가장 높은 초안을 선택하여 최종 출력을 생성할 수 있습니다.

3. 주요 기여 (Key Contributions)

제약 디코딩 실패 원인 분석 (KL-Projection View):
- 제약 디코딩을 반복적인 역 KL (Reverse-KL) 투영으로 해석하고, 유효 토큰에 할당된 확률 질량이 낮을수록 누적되는 "투영 세금 (Projection Tax)"이 의미적 정확도를 떨어뜨린다는 것을 수학적으로 증명했습니다.
DCCD 알고리즘 제안:
- 훈련이 필요 없는 (Training-free) 두 단계 추론 방식을 제안하여, 제약 적용 전 유효 확률 질량을 인위적으로 높임으로써 구조적 유효성과 의미적 정확도를 동시에 달성했습니다.
실험적 검증:
- 다양한 모델 크기 (1B~14B) 와 작업 (GSM8K, MATH500, FOLIO 등) 에서 기존 방법론 대비 획기적인 성능 향상을 입증했습니다.

4. 실험 결과 (Results)

실험은 GSM8K(수학), MATH500(고급 수학), GSM-Symbolic(기호 수학), FOLIO(논리 추론) 등 다양한 벤치마크에서 수행되었습니다.

엄격한 구조 정확도 (Strict Structured Accuracy) 향상:
- GSM8K (1B 모델): 기존 제약 디코딩 (CD) 대비 **15.2% → 39.0%**로 정확도가 급격히 상승했습니다 (+24%p).
- GSM8K (1.5B 모델): 49.36% → 73.92% 로 향상되었습니다.
- 모든 모델 크기와 제약 유형 (JSON, 논리식 등) 에서 일관된 개선을 보였습니다.
파라미터 효율성 (Parameter Efficiency):
- DCCD 는 작은 모델 쌍 (예: 1.5B + 1.5B) 을 사용하여 더 큰 단일 모델 (예: 14B) 의 CD 성능을 능가하거나 대등한 수준을 달성했습니다. 이는 추론과 포맷팅을 분리함으로써 파라미터 효율성이 크게 개선됨을 의미합니다.
테스트 타임 스케일링 (Test-time Scaling):
- 더 많은 초안 (Draft) 을 샘플링하여 선택하는 방식 (Best-of-K) 을 적용할 때, 기존 CD 보다 성능 향상이 더 크게 나타났습니다. 이는 의미적 계획에 컴퓨팅 자원을 할당하는 것이 더 효과적임을 시사합니다.
신뢰도 (Confidence):
- DCCD 는 생성된 답변에 대한 모델의 신뢰도 (Confidence Score) 를 기존 CD 대비 약 39% 높였습니다.

5. 의의 및 결론 (Significance)

이 논문은 구조화된 생성의 신뢰성을 높이기 위한 새로운 패러다임을 제시합니다.

기존의 딜레마 해결: "형식을 지키면 답이 틀리고, 답을 맞추면 형식이 깨진다"는 기존 LLM 의 트레이드오프를 해결했습니다. DCCD 는 정확한 유효성 보장을 유지하면서도 추론 품질을 유지합니다.
실용성: 추가적인 모델 학습 (Fine-tuning) 이 필요 없으며, 기존 LLM API 와 호환되어 즉시 적용 가능합니다.
시스템 설계: 추론 (Reasoning) 과 형식화 (Formatting) 를 분리하는 것이 LLM 기반 에이전트 및 도구 사용 시스템의 안정성을 높이는 핵심 요소임을 입증했습니다.

결론적으로, DCCD 는 구조가 엄격하게 요구되는 환경 (금융, 의료, 자동화 시스템 등) 에서 LLM 의 실용적 배포를 가능하게 하는 강력한 기술적 해결책입니다.