Diffusion Alignment as Variational Expectation-Maximization
この論文は、強化学習や直接の逆伝播に基づく既存手法が抱える報酬の過剰最適化やモード崩壊の問題を解決するため、テスト時探索によるサンプリング(E ステップ)とモデルの更新(M ステップ)を交互に繰り返す「変分 EM 法としての拡散アライメント(DAV)」という新しいフレームワークを提案し、テキストから画像の生成や DNA 配列設計など多様なタスクにおいて、報酬の最大化と多様性の維持を両立させることを示しています。