MIBURI: Towards Expressive Interactive Gesture Synthesis

本論文は、LLM による音声テキスト埋め込みを条件とした 2 次元因果フレームワークと身体部位を考慮した手势コーデックを採用し、リアルタイムで自然かつ多様性のある全身ジェスチャーと表情を生成する初のオンライン手法「MIBURI」を提案するものである。

M. Hamza Mughal, Rishabh Dabral, Vera Demberg, Christian Theobalt

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

MIBURI:AI がおしゃべりしながら、自然に「身振り手振り」をするようになる技術

この論文は、**「MIBURI(ミブーリ)」**という新しい AI 技術について紹介しています。

これまでの AI チャットボットは、文字や音声で話すことはできても、**「体を使って感情を表現する」**ことができませんでした。まるで、首から下がないか、あるいはロボットのように硬直した動きしかしないような感じでした。

MIBURI は、この問題を解決し、**「リアルタイムで、人間のように自然に身振り手振りをする AI」**を実現しました。

以下に、難しい専門用語を使わず、身近な例え話で解説します。


1. 従来の AI の問題点:「後から考える」から「その場で考える」へ

これまでの AI が身振り手振りを作る方法は、2 つの大きな欠点がありました。

  • 問題 A:未来を知っている必要がある(非因果的)
    • 従来の AI は、「これから何を言うか(未来の文脈)」を全部知ってから、その言葉に合う動きを作っていました。
    • 例え話: 会話中に「じゃあ、今からこの話をするね」と言われるのを待ってから、その話に合うジェスチャーを準備する人。でも、実際の会話では、相手の話が終わる前に「なるほど!」と相槌を打つ必要がありますよね。未来が見えない状態で動くのが難しいのです。
  • 問題 B:動きが硬い(低多様性)
    • 別の AI は、動きを「決まりきったパターン」から選んでいました。
    • 例え話: 毎回同じタイミングで同じように手を振る、マニュアル通りのロボット。人間のような「ふとした瞬間の自然な仕草」がありません。

MIBURI のすごいところは、未来を予知せず、今聞こえている声とテキストだけを頼りに、「その瞬間に」自然な動きを即座に作り出せる点です。


2. MIBURI の仕組み:3 つの「魔法の道具」

MIBURI は、3 つの工夫でこの難題をクリアしました。

① 脳と体を直接つなぐ「神経回路」(Moshi との連携)

通常、AI は「言葉を音声に変換」→「音声から動きを作る」という、面倒な工程を踏みます。これだと遅れます。
MIBURI は、**「Moshi(モシ)」**という最新の AI と直接つながっています。

  • 例え話: 普通の人は、言葉を聞いてから「あ、これは驚きだ」と考えてから手を上げます。でも、MIBURI は、言葉を発している瞬間の「脳の電気信号(トークン)」を直接受け取って、**「言葉と同時に体が反応する」**ようにしています。これにより、遅延(ラグ)がほとんどありません。

② 全身を「3 つのパート」に分けて考える(ボディパート別コーデック)

人間の動きは、顔、上半身、下半身で役割が違います。

  • 顔: 表情や口元。
  • 上半身: 手を振ったり、肩をすくめたり。
  • 下半身: 歩いたり、重心を動かしたり。
    MIBURI は、これらをバラバラに扱わず、それぞれ専用の「翻訳機(コーデック)」で、動きを小さな「ブロック(トークン)」に分解して管理しています。
  • 例え話: 指揮者がオーケストラをまとめるように、顔・手・足をそれぞれ担当する「パートリーダー」がいて、それぞれが自分のパートだけを担当しながら、全体として調和した演奏(動き)を作っています。

③ 2 段階の「思考プロセス」(2 次元トランスフォーマー)

動きを作る際、MIBURI は 2 段階で考えます。

  1. タイムライン(時間): 「次にどんな動きをするか?」(リズム感)
  2. キネマティクス(関節): 「その動きを、どの関節でどう表現するか?」(詳細)
  • 例え話: 料理人が料理を作る時、まず「どんな味付けにするか(時間的な流れ)」を決め、次に「どの具材をどう切るか(詳細な動き)」を決めるようなものです。この 2 段階で考えることで、遅くならず、かつ複雑で自然な動きを実現しています。

3. なぜ「自然」なのか?:「退屈しない」ための工夫

AI が動きを作り続けると、どうしても「同じ動きを繰り返す」か「動かなくなる(静止する)」傾向があります。
MIBURI は、これを防ぐために**「少しのスパイス」**を加えています。

  • 例え話: 漫才のボケとツッコミのように、AI にも「話す時」と「聞く時」の区別をつけさせました。
    • 話す時: 元気よく、大きく動き回る。
    • 聞く時: 静かに、相槌を打つような小さな動きをする。
    • さらに、**「同じ動きばかりしないように」**というルール(対比損失)を教え込むことで、人間らしい「予測不能な自然さ」を確保しています。

4. 結果:どんなことができるの?

実験の結果、MIBURI は以下の点で優れていることがわかりました。

  • リアルタイム性: 話しているその瞬間に、遅れずに動きが出ます(約 36 ミリ秒!)。
  • 自然さ: 人間が評価したところ、他の AI よりも「自然で、話の内容に合っている」と高く評価されました。
  • 多様性: 同じ話でも、毎回違う表情や動きをします。

まとめ

MIBURI は、**「AI が人間と会話する時、ただ喋るだけでなく、全身を使って感情を伝えられる」**という、未来のコミュニケーションを実現する技術です。

これからの AI アバターは、ただの「喋る箱」ではなく、**「あなたの話に反応して、うなずき、手を広げ、感情を込めて動く、生きたパートナー」**になるかもしれません。MIBURI は、その第一歩を踏み出した画期的な技術なのです。