Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

この論文は、第 10 回 ABAW コンペティション向けに、シーン、顔、音声、テキストの 4 つのモダリティを統合し、プロトタイプ拡張融合モデルのアンサンブルを用いて、非制限動画における曖昧性・躊躇の認識精度を単一モダリティの 70.02% から 71.43% へと向上させた TEAM LEYA の手法を報告するものである。

Elena Ryumina, Alexandr Axyonov, Dmitry Sysoev, Timur Abdulkadirov, Kirill Almetov, Yulia Morozova, Dmitry Ryumin

公開日 2026-03-16
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「人の心の中の『迷い』や『ためらい』を、動画から読み取る技術」**について書かれたものです。

ロシアのチーム「LEYA」が、第 10 回 ABAW(野外での感情・行動分析)コンペティションで発表した成果です。彼らは、**「この人は本当にその意見に賛成しているのか、それとも内心では迷っているのか?」**という、非常に微妙な心理状態を、AI に見つけさせようという挑戦を行いました。

この難しいタスクを、わかりやすい日常の例えを使って説明しましょう。


🎭 物語:「迷い」を見つける探偵チーム

この研究は、4 人の異なる専門家からなる探偵チームが、ある事件(動画)を調査する様子に例えられます。

1. 4 人の探偵(4 つのモダリティ)

チームは、相手の「迷い」を見つけるために、4 つの異なる角度から情報を集めます。

  • 🎥 背景の探偵(シーン情報):
    相手の顔だけでなく、**「周囲の環境」**を見ます。部屋が騒がしいのか、静かなのか、背景の動きがどうなっているか。これによって、その人が置かれている状況の緊張感や不自然さを察知します。

    • 技術: 「VideoMAE」という、動画の動きを瞬時に理解する AI を使っています。
  • 👀 表情の探偵(顔情報):
    相手の**「顔」**をじっと見ます。口元が少し震えていないか、眉間にしわが寄っていないか。言葉とは裏腹に、顔が「本当は嫌だ」と言っていないかを探します。

    • 技術: 顔の動きを感情に変換して、統計的に分析します。
  • 🎤 声の探偵(音声情報):
    相手の**「声のトーン」**を聞きます。言葉の内容が「はい」と言っても、声の震えや間(ま)が長すぎたり、弱々しかったりしませんか?

    • 技術: 「EmotionWav2Vec2.0」という音声 AI と、時系列のデータ処理に強い「Mamba」という新しい AI を組み合わせて、声の微妙な揺らぎを捉えます。
  • 📝 言葉の探偵(テキスト情報):
    相手の**「話した内容」**そのものを分析します。言葉の選び方、矛盾した表現、言い淀みなど、文章から「迷い」の匂いを嗅ぎ取ります。

    • 技術: 「EmotionDistilRoBERTa」という、言葉の文脈を深く理解する AI を使います。

2. 司令塔(マルチモーダル融合)

それぞれの探偵が「迷っている気がする」「いや、迷ってないと思う」という報告を持ってきます。ここで重要なのは、**「それぞれの意見をただ足し算するだけではない」**ことです。

  • 司令塔の役割:
    4 つの情報を一つの部屋(共有空間)に集め、AI が「あ、顔は笑ってるけど、声は震えてるし、言葉も矛盾してるな。これは**『迷い』**だ!」と、情報の矛盾や補完関係を総合的に判断します。
  • プロトタイプ(型)の活用:
    さらに、チームは「迷っている人の典型的なパターン(プロトタイプ)」を AI の頭の中に何種類か用意しました。「今の状況は、この『迷いパターン』に似てるな」と照らし合わせることで、より正確に判断できるようにしています。

3. 5 人のチームで賭けをする(アンサンブル学習)

研究の最終段階では、**「1 人の天才に任せる」のではなく、「5 人の異なるチームを組ませて、その結果を平均する」**という作戦を取りました。
これにより、特定のチームが勘違いしても、全体として正しい答えにたどり着けるようにしました(ロバスト性の向上)。


🏆 結果:どれくらい成功した?

このチームの成果は非常に素晴らしいものでした。

  • 一人の探偵だけの場合:
    一番得意な「言葉の探偵」でも、正解率は約 70% でした。
  • 4 人全員で協力した場合:
    4 つの情報を融合させると、正解率は83% 以上まで跳ね上がりました!
  • 最終的なテスト(本番):
    5 つのチームを組み合わせることで、**71.43%**という最高成績を収め、コンペティションで高い評価を得ました。

💡 この研究がすごい理由(まとめ)

  1. 「迷い」は複雑だ:
    単純な「嬉しい」や「悲しい」感情とは違い、「迷い」は言葉、声、顔、背景が矛盾している時に現れます。この研究は、その「矛盾」を捉えることに成功しました。
  2. 「全体」を見るのが大事:
    顔だけ、声だけを見てもダメで、**「4 つの情報を全部合わせて、どう絡み合っているか」**を見ることで、初めて正解に近づけることが証明されました。
  3. 実用性:
    この技術は、オンラインカウンセリングや教育、ヘルスケアなどで、「人が本当に変化したいと思っているのか、それとも抵抗しているのか」を AI が察知し、より良いサポートにつなげる可能性があります。

一言で言うと:
「言葉と表情、声、背景を全部見ながら、AI が『あ、この人、内心で揺れてるな』と見抜くための、超優秀な探偵チームの作り方」を提案した論文です。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →