Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

第 10 回 ABAW コンペティションにおいて、Team RAS は顔、行動、音声の 3 つのモダリティを統合し、Transformer、Qwen3-VL、Mamba、WavLM などの最先端モデルを活用した多モーダル融合アプローチにより、Aff-Wild2 データセットで CCC 0.658 の高い精度を達成した連続的な情動認識手法を提案しています。

Elena Ryumina, Maxim Markitantov, Alexandr Axyonov, Dmitry Ryumin, Mikhail Dolgushin, Denis Dresvyanskiy, Alexey Karpov

公開日 2026-03-16
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎭 感情の「読心術」:AI が表情、声、振る舞いから心を覗く方法

この論文は、ロシアのチーム「Team RAS」が、第 10 回「ABAW(自然な環境での感情分析)」という AI コンテストで発表した、**「AI による感情の読み取り」**に関する新しい技術について書かれています。

彼らが目指したのは、映画の撮影現場のような「自然な状態(In-the-Wild)」で、人がどんな感情(喜びや怒り、興奮や無気力など)を抱いているかを、カメラとマイクを使ってリアルタイムで推測することです。

この難しい問題を解決するために、彼らは**「3 つの異なる視点(モダリティ)」を組み合わせ、まるで「3 人の名探偵が協力して事件を解く」**ようなシステムを作りました。


🔍 3 人の名探偵チーム

このシステムは、感情を分析するために 3 つの異なる「専門家」を雇っています。

1. 表情の探偵(Face Model)

  • 役割: カメラに映っている人の**「顔」**だけを見つめます。
  • 道具: 「GRADA」という高性能なカメラ(AI)を使っています。
  • 特徴: 表情の変化をフレーム(動画の 1 コマ)ごとに細かくチェックします。眉をひそめているか、口角が上がっているか、といった微細な動きを逃しません。
  • 弱点: 顔が隠れていたり、光が暗すぎたりすると、判断が難しくなります。

2. 振る舞いの探偵(Behavior Model)

  • 役割: 顔だけでなく、**「全身の動き」や「状況」**を総合的に判断します。
  • 道具: 「Qwen3-VL」という、画像と文章の両方を理解できる超高性能な AI(大規模言語モデル)を使っています。
  • 特徴: この AI に「この動画を見て、この人は今どんな気分?どんな仕草をしている?」と質問(プロンプト)を投げかけます。AI は「彼は腕を組んで、少し後ろに下がっているね。これは自信がないか、警戒している証拠だよ」といった文章で説明を生成し、そこから感情を推測します。
  • 工夫: 動画の区切りごとに「Mamba」という新しい技術を使って、時間の流れ(「最初は怒っていたが、次第に落ち着いてきた」など)を把握します。

3. 音声の探偵(Audio Model)

  • 役割: 人の**「声」**から感情を読み取ります。
  • 道具: 「WavLM」という音声認識 AI を使っています。
  • 特徴: 声のトーン、大きさ、早さから興奮度や喜びを測ります。
  • 工夫: 自然な環境では、雑音や「喋っていない時間」が多いです。そこで、**「口が開いているかどうか(MediaPipe で検知)」**をチェックし、実際に喋っている部分だけを抽出して分析するフィルターを掛けました。これにより、無駄なノイズを排除しています。

🤝 2 つの「協力方法」

3 人の探偵がそれぞれ意見を出しただけでは、矛盾してしまうかもしれません。そこで、チームは 2 つの異なる「協力ルール(融合戦略)」を試しました。

戦略 A:「指揮官型のチーム会議」(DCMMOE)

  • 仕組み: 3 人の探偵がそれぞれ「顔×声」「顔×振る舞い」「声×振る舞い」のように、ペアで議論します。
  • 特徴: 「今、顔の情報は信頼できるけど、音声は雑音が多いな」と判断したら、AI が自動的に**「顔の意見に重みをつける」**という調整を行います。
  • イメージ: 会議室で、状況に応じて誰の話を優先するかを瞬時に決める、柔軟なリーダーがいる状態です。

戦略 B:「信頼度に応じたリレー」(RAAV)

  • 仕組み: 顔と振る舞いの情報を**「1 フレーム単位」**でまず混ぜ合わせ、そこに音声情報を「補足情報」として加えます。
  • 特徴: 音声は「全体の雰囲気(コンテキスト)」として使われ、顔や振る舞いの詳細な動きを補強します。
  • イメージ: 顔と振る舞いが「メインの料理」を作り、音声は「ソース」のように、味のバランスを整える役割を果たします。

🏆 結果:どんなことがわかった?

このチームは、世界最大級の感情データセット「Aff-Wild2」で実験を行いました。

  • 単独では限界: 表情だけ、音声だけ、あるいは振る舞いだけでも、完璧な結果は出ませんでした。
  • 協力すると最強: 3 つを組み合わせることで、精度が大幅に向上しました。
  • 最大の発見: 「振る舞いの探偵(Qwen3)」は、単に「顔」を見るだけよりも、**「全身の動きと状況を読み解く」**方が、感情の予測に役立ちました。これは、AI が「文脈」を理解する能力の重要性を示しています。
  • ベストスコア: 最も優れた「戦略 B(RAAV)」を使った場合、感情の予測精度(CCC 値)が0.658という高いスコアを達成しました。これは、既存の最高水準の技術と競り合えるレベルです。

💡 まとめ

この研究は、**「AI が人の感情を理解するには、顔を見るだけでは不十分だ」**と教えてくれます。

  • 顔(表情)
  • 声(トーン)
  • 振る舞い(全身の動きと文脈)

これらを**「3 人の名探偵」のように組み合わせ、状況に応じて「誰の意見を信じるか」**を AI が自分で判断する仕組みを作ることが、自然な世界での感情認識を成功させる鍵でした。

この技術は、将来的に、「AI 搭載のカウンセリングロボット」「ストレス管理アプリ」、あるいは**「より人間らしい対話ができるチャットボット」**などに応用できる可能性を秘めています。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →