Controllable Dance Generation with Style-Guided Motion Diffusion

既存の手法が欠如していた音楽スタイルとの整合性や制御性を補完するため、音楽特徴とスタイルプロンプトを統合した「スタイル誘導モーション拡散(SGMD)」を提案し、Transformer 構造と空間時間的マスク機構を用いて、軌跡生成やダンスの補間・修復など多様な制御タスクに対応する高品質でスタイルに忠実なダンス生成を実現する。

Hongsong Wang, Ying Zhu, Xin Geng, Liang Wang

公開日 2026-03-11
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「音楽に合わせて、好きなスタイルで踊れる AI ダンサー」**を作る技術について書かれています。

これまでの技術では、「音楽に合わせて踊る」こと自体はできましたが、「どんな雰囲気で踊るか(例えば、元気よく、あるいは優雅に)」を細かくコントロールしたり、特定の動きだけ指定して残りを AI に任せるような「自由な編集」は難しかったです。

この研究では、**「SGMD(スタイルガイド・モーション・ディフュージョン)」**という新しい仕組みを提案しています。これをわかりやすく説明するために、いくつかの比喩を使ってみましょう。

1. 料理の例:同じ食材でも、味付けで全く違う料理に

これまでの AI ダンス生成は、「音楽(食材)」が入れば、自動的に「ダンス(料理)」が出てくるという感じでした。しかし、それが「スパイシーな味」なのか「甘めの味」なのかは、AI の気分次第で、ユーザーが「もっと激しく踊って!」と注文しても、なかなか反映されませんでした。

この新しい技術は、**「味付けのレシピ(スタイルプロンプト)」**を一緒に渡すことができるようになりました。

  • 音楽: 音楽そのもの(例:ジャズの曲)。
  • スタイルプロンプト: 「ストリートジャズのようにリズミカルに」「バレエのように優雅に」といった指示。

AI は、この「レシピ」を参考にしながら、同じ音楽からでも、全く雰囲気の違うダンスを生成できるようになります。まるで、同じ鶏肉でも、唐揚げにしたり、煮物にしたりできるようなものです。

2. 絵画の例:部分的な修正ができる「魔法の筆」

これまでの AI は、一度描き始めると、途中で「ここだけ直して」と言うのが難しかったです。でも、この新しい技術には**「時空間マスク(タイム・スペース・マスク)」**という魔法の筆があります。

  • 軌跡指定: 「この手は、この線を描いて」と指定すると、その通りに動きます。
  • つなぎ目作成: 「最初のポーズ」と「最後のポーズ」だけ教えて、「その間の動き」を AI に任せることができます(イン・ビトウィーニング)。
  • 欠損補完: 「体の下半身は固定して、上半身だけ踊らせて」とか、「踊っている途中の 7 割を消して、残りを AI に埋めさせて」といった編集も可能です。

これは、絵画の一部分だけを変えて、全体を自然に直すような感覚です。ユーザーは「ここだけ変えて」と自由に指示でき、AI がそれを自然に埋め合わせてくれます。

3. 音楽の「魂」を読み取る AI

この技術のすごいところは、単にリズムに合わせるだけでなく、**「音楽の雰囲気(ジャンルや感情)」**を深く理解している点です。

  • 言葉で指示: 「ハウス・ダンスは、地下のクラブから生まれた情熱的なスタイルです」といった文章(GPT-3 という AI が生成した詳細な説明)を AI に読ませることで、より本物らしい「魂」のある動きを作ります。
  • 実験結果: 人間が評価したところ、この新しい AI が作ったダンスは、従来の AI よりも**60% の人が「こっちの方が好き」**と選びました。また、動きのバリエーションも豊かで、単調にならないことも証明されました。

まとめ:何ができるようになるの?

この技術が完成すれば、以下のようなことが現実のものになります。

  • ゲームや映画: キャラクターに「今日は少し悲しげに踊って」と指示すれば、その感情に合わせたダンスを即座に生成できます。
  • ダンス教室: 先生が「この部分だけ、もっと高く足を上げて」と指示すれば、AI がその部分だけを修正したデモ動画を作ってくれます。
  • クリエイティブ: 音楽に合わせて、ユーザーのアイデア次第で、無限のバリエーションのダンスを楽しめます。

つまり、**「音楽と、あなたのアイデア(スタイルや指示)」**を組み合わせるだけで、プロのようなダンスを誰でも自由に生み出せるようになる、そんな未来への一歩を踏み出した研究です。