Diffusion Alignment as Variational Expectation-Maximization

이 논문은 보상 과최적화와 모드 붕괴 문제를 해결하기 위해 테스트 시간 탐색과 모델 정제를 반복하는 '확산 정렬을 위한 변분 기대-최대화 (DAV)' 프레임워크를 제안하여 텍스트 - 이미지 합성 및 DNA 서열 설계 등 다양한 작업에서 보상 최적화와 다양성 유지의 균형을 달성함을 보여줍니다.

Jaewoo Lee, Minsu Kim, Sanghyeok Choi, Inhyuck Song, Sujin Yun, Hyeongyu Kang, Woocheol Shin, Taeyoung Yun, Kiyoung Om, Jinkyoo Park

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 배경: 왜 이 기술이 필요한가요?

지금까지의 AI 그림 그리기 기술 (확산 모델) 은 아주 훌륭한 화가였습니다. 하지만 이 화가를 "더 예쁜 그림을 그려달라"고 주문하면, 두 가지 문제가 생겼습니다.

  1. 과도한 최적화 (Reward Over-optimization): 화가가 "예쁘게"라는 말만 듣고, 사람 얼굴을 그릴 때 눈이 너무 크거나 피부가 너무 매끄러운 등 비현실적이고 기괴한 그림만 그리게 됩니다. (너무 잘 하려다 망친 경우)
  2. 모드 붕괴 (Mode Collapse): 화가가 "가장 예쁜 그림"을 하나만 찾아서, 그걸 수천 번 복사해서 내어놓습니다. 다양성이 사라지고 모든 그림이 똑같아집니다.

기존 방법들은 이 화가를 훈련시킬 때, "정답"을 강제로 주입하거나 (역전파), 화가가 실수할 때마다 매를 들며 훈련시켰습니다 (강화학습). 하지만 이 방식들은 화가의 창의성을 죽이거나, 이상한 그림만 그리게 만드는 부작용이 있었습니다.


💡 DAV 의 해결책: "탐험가"와 "스승"의 듀오

이 논문은 이 문제를 해결하기 위해 DAV라는 새로운 훈련 방식을 제안합니다. 이 방식은 **E-Step(탐험)**과 **M-Step(정리)**라는 두 단계를 반복하는 EM 알고리즘을 기반으로 합니다.

이를 **유명한 화가 (AI 모델)**와 **그의 예술가 지망생 (탐험가)**의 관계로 비유해 볼까요?

1 단계: E-Step (탐험 - "잠깐, 화가님, 잠시 쉬세요!")

  • 상황: 화가 (AI) 가 그릴 준비를 했지만, 아직 완벽하지 않습니다.
  • 행동: 대신 **탐험가 (테스트 타임 서치)**가 나갑니다. 탐험가는 화가의 기본 실력을 바탕으로, "어떤 그림이 가장 반응이 좋을지" 찾아다니며 **수백 개의 시안 (후보 그림)**을 그려봅니다.
  • 특징: 이때 탐험가는 단순히 하나만 고르는 게 아니라, 다양한 스타일의 좋은 그림들을 골고루 모읍니다. (다양성 유지)
  • 비유: 마치 요리사가 "최고의 맛"을 찾기 위해 실험실로 가서 다양한 재료를 섞어보며 최고의 레시피를 찾아내는 과정입니다.

2 단계: M-Step (정리 - "자, 이 레시피를 배우세요!")

  • 상황: 탐험가가 찾아온 최고의 시안들 (다양하고 좋은 그림들) 이 모였습니다.
  • 행동: 이제 **스승 (AI 모델)**이 이 시안들을 보고 "아, 이렇게 그리면 사람들이 좋아하구나!"라고 배웁니다.
  • 핵심: 기존 방식은 "가장 좋은 것 하나"만 따라 하게 했지만, DAV 는 다양한 좋은 것들 전체를 학습합니다. 그래서 화가는 "예쁜 그림"을 그리면서도, 다양한 스타일을 잃지 않게 됩니다.
  • 비유: 요리사가 실험실에서 찾아온 10 가지의 맛있는 레시피를 모두 노트에 적어두고, 자신의 요리 스킬을 업그레이드하는 것입니다.

이 과정을 탐험 (E-Step) → 학습 (M-Step) → 다시 탐험 → 다시 학습으로 반복하면, AI 는 점점 더 똑똑해지면서도 창의성을 잃지 않게 됩니다.


🌍 이 기술로 무엇을 할 수 있나요?

이 논문은 이 기술이 두 가지 다른 분야에서 잘 작동함을 증명했습니다.

  1. 연속적인 데이터 (이미지 생성):

    • 상황: "고양이 그림을 그려줘"라고 했을 때, 단순히 고양이만 그리는 게 아니라 더 예쁘고, 사람 취향에 맞으면서도 고양이마다 다른 표정과 자세를 가진 그림을 그립니다.
    • 결과: 기존 방법들은 고양이 눈이 너무 커지거나 (과도한 최적화), 모든 고양이 그림이 똑같아지는 (다양성 붕괴) 문제가 있었지만, DAV 는 이를 해결했습니다.
  2. 이산적인 데이터 (DNA 설계):

    • 상황: "기능이 좋은 DNA 서열을 만들어줘"라고 했을 때, 단순히 기능만 좋게 만드는 게 아니라 자연스러운 DNA 구조를 유지하면서 다양한 변이를 만들어냅니다.
    • 결과: 생물학 실험에서 쓸 수 있는 실제 DNA 를 설계할 때, 너무 인위적이거나 위험한 구조가 나오지 않도록 도와줍니다.

🚀 요약: 왜 이것이 중요한가요?

기존의 AI 훈련 방식은 "정답 하나만 찾아서 그걸 외우게 하는" 방식이었다면, DAV 는 "다양한 정답들을 찾아보고, 그걸 종합해서 더 똑똑하게 만드는" 방식입니다.

  • 창의성 유지: AI 가 똑같은 결과물만 반복하지 않게 합니다.
  • 과도한 욕심 방지: "더 잘해"라는 주문 때문에 AI 가 망가지는 것을 막아줍니다.
  • 범용성: 그림을 그리는 AI 이든, DNA 를 설계하는 AI 이든 모두 적용 가능합니다.

결론적으로, DAV 는 AI 가 **인간이 원하는 목표를 달성하면서도, 여전히 다양하고 자연스러운 결과물을 만들어낼 수 있게 해주는 '지혜로운 훈련 코치'**라고 할 수 있습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →