Each language version is independently generated for its own context, not a direct translation.
🎭 1. そもそも「マイクロエクスプレッション」とは?
まず、この大会で扱う「マイクロエクスプレッション(ME)」とは何でしょうか?
- イメージ: あなたが怒っているのに、無理やり笑ってごまかそうとした瞬間、一瞬だけ(0.5 秒未満)、口元がピクッとして「本当は怒ってるぞ」という表情が漏れてしまうこと。
- 特徴: 本人も気づかないほど短く、無意識に現れる「心の隙間」のようなものです。普段の大きな表情(マクロエクスプレッション)とは違い、**「隠そうとした感情の漏れ」**を捉えるのが目的です。
🏆 2. この大会の目的:AI に「心の探偵」になってもらう
これまでの大会では、AI に「この表情は怒りか?」と分類させるのが主流でした。しかし、2026 年の大会では、**「AI に自然な会話で質問して、答えさせる」**という新しいスタイルを導入しています。
まるで**「AI 探偵」**に、動画を見て「この人、今どんな気持ち?」「いつ、どんな表情が現れた?」と質問し、その答えを言葉で説明させるようなものです。
大会には 2 つの主要な「お題(タスク)」があります。
🎬 タスク 1:短い動画で「心の探偵」をする(ME-VQA)
- 内容: 数秒間の短い動画を見て、質問に答えます。
- 例え: 映画の**「名場面(数秒)」**を切り取って、「この瞬間、主人公は嘘をついている?」「どんな感情が隠れている?」と探偵に聞いている感じです。
- AI の挑戦: 最新の AI(マルチモーダル大規模言語モデル)を使って、映像と質問を結びつけ、「怒りっぽい口元が見えるから、怒りを隠しているよ」といった自然な言葉で答えることを目指します。
🎥 タスク 2:長い動画で「心の探偵」をする(ME-LVQA)
- 内容: 数分〜数十分の**「長い動画」**を見て、質問に答えます。
- 例え: 映画の**「全編」**を見せ、「この 1 時間の間に、主人公は何回『隠れた感情』を見せた?」「その時、どんな仕草があった?」と探偵に聞いている感じです。
- 難しさ: 長い動画には、普通の会話や大きな表情が混ざり合っています。その中で、**「一瞬の隙(マイクロエクスプレッション)」**を見つけ出し、時間軸を追いながら「あ、3 分目のところで怒りを隠したな」と見抜くのは、非常に難しいミッションです。
📊 3. 現在の AI の実力:「まだ修行中」
この論文では、最新の AI(Qwen という名前)にテストを受けさせた結果も紹介されています。
- 大きな表情なら OK: 「怒ってる」「笑ってる」といった大きな感情なら、AI もそこそこ当てられます。
- 隠れた感情は苦手: しかし、**「隠された感情(マイクロエクスプレッション)」を細かく見分けるのは、まだ AI にとって「超難問」**です。
- 例え: 探偵が「犯人は誰?」と聞かれて、「多分 A さんかな?」と大まかに当てるのは得意ですが、「A さんが 3 分 12 秒に左眉を少し上げたのが証拠だ」という細かい証拠を見つけ出すのは、まだ苦戦しています。
- 長い動画はさらに大変: 短い動画よりも、長い動画の分析では AI の性能が落ちることが分かりました。長い時間、集中して「心の隙」を探し続けるのは、AI にとっても疲れる(計算が難しい)作業のようです。
🚀 4. 今後の展望:なぜこれが重要なのか?
この大会は、AI が単に「表情を分類する機械」から、**「人間の感情の機微を理解し、自然に会話できるパートナー」**に進化するためのステップです。
- 応用: 嘘発見器の代わりに使ったり、心理治療のサポートをしたり、あるいは映画制作で「役者の演技の深さ」を分析したりする未来が期待されています。
まとめ
この論文は、**「AI に『心の隙間』を見つける探偵としての修行をさせるための、新しいお稽古場(大会)の案内」**です。
- 短い動画で瞬時に感情を読み取る練習。
- 長い動画で、長い間じっと観察し、隠れた感情を特定する練習。
まだ AI は「超難問」に直面していますが、この大会を通じて、より人間に寄り添った、賢い AI が生まれることを目指しています。
Each language version is independently generated for its own context, not a direct translation.
MEGC2026: 視覚的質問応答(VQA)におけるマイクロ表情グランチャレンジ 技術要約
1. 概要と背景
マイクロ表情(ME: Micro-Expressions)は、高ストレス環境などで感情を抑制しようとする際に生じる、0.5 秒未満の無意識の顔面運動です。従来の ME 研究は、認識(Recognition)、スポッティング(Spotting)、生成(Generation)に焦点が当てられてきましたが、近年のマルチモーダル大規模言語モデル(MLLM)や大規模視覚言語モデル(LVLM)の進展により、自然言語を用いた ME の理解という新たな方向性が生まれています。
本論文は、2026 年に開催される第 9 回 ME グランチャレンジ(MEGC2026)の概要を報告するもので、従来のタスクを拡張し、**「視覚的質問応答(VQA)」**を中核とした 2 つの新しいタスクを提案しています。
2. 提案タスク
MEGC2026 では、以下の 2 つのタスクが設定されています。
タスク 1: ME ビデオ質問応答 (ME-VQA)
- 目的: 比較的短い動画シーケンス(マイクロ表情のクリップ)に対して、自然言語の質問を入力し、モデルに ME の属性や関連情報を自然言語で回答させるタスク。
- 特徴: 従来の感情カテゴリやアクションユニット(AU)の注釈を、質問 - 回答(QA)ペアに変換。MLLM/LVLM の多モーダル推論能力を活用し、ME の解釈可能性や柔軟な対話を促進する。
- 質問の例: 「口角下制筋(Lip Corner Depressor)は顔に現れていますか?(二値分類)」「表情クラスは何ですか?(多クラス分類)」「このクリップで観察されたマイクロ表情の詳細な分析を行ってください(複雑な記述)」など。
タスク 2: ME 長動画質問応答 (ME-LVQA)
- 目的: 現実的な長尺動画(数分規模)における ME の分析タスク。ME-VQA を拡張した新しい課題。
- 特徴: 長期間にわたる時間的推論(Temporal Reasoning)と、自然な顔面運動や他の表情の中に潜む微妙な ME の検出を要求する。
- 質問の例: 「動画全体で表情イベントは何回発生しましたか?」「特定のイベントはマイクロ表情(ME)かマクロ表情(MaE)か?」「動画全体で出現した異なるアクションユニット(AU)をリストアップしてください」など。
- 課題: 時間的な局所化と質問応答を単一の推論フレームワークで統合する必要があり、実世界でのロバスト性を試す高度なタスク。
3. データセット
- トレーニングデータ: 参加者は任意のトレーニングセットを使用可能。推奨データセットとして SAMM, CASME II, SMIC, CAS(ME)3, 4DME が挙げられている。
- ME-VQA データセット (ME-VQA-v2): SAMM, CASME II, SMIC の注釈を QA ペア形式に再構築。テストセットは 24 クリップ(SAMM 7 クリップ、CAS(ME)3 から切り出した 17 クリップ)。
- ME-LVQA データセット: SAMM-LV と CAS(ME)3 を基に QA ペアを追加。テストセットは 30 長動画(SAMM 10 動画、CAS(ME)3 から切り出した 20 動画)。
- フレームレート: SAMM は 200 fps、CAS(ME)3 は 30 fps。
4. ベースライン手法と評価指標
ベースラインモデル
- Qwen2.5VL-3B と Qwen3VL-4B を採用。
- これらは視覚エンコーダ、言語モデルバックボーン、クロスモーダル融合モジュールを持つ LVLM。
- 評価設定: ゼロショット(ZS)と微調整(Fine-Tuning: FT)。微調整には QLoRA を使用し、視覚エンコーダや投影層、言語モデルのクエリ/キーを適応させた。
評価指標
- ME-VQA:
- 感情分類:不均衡なクラスを考慮した UF1 (Unweighted F1 Score) と UAR (Unweighted Average Recall)。
- 言語生成品質:BLEU と ROUGE-1。
- ME-LVQA:
- 回数予測(回数の推定):回帰タスクとして MAE と RMSE。
- AU 検出(集合予測):順序に依存しない F1 スコア と Jaccard 指数。
- 表情タイプ分類(ME/MaE):二値分類として UF1 と UAR。
5. 実験結果
ME-VQA の結果
- ゼロショット: 粗粒度の感情分類(ポジティブ/ネガティブ/驚き)では中程度の性能(UF1/UAR 約 0.24–0.33)を示したが、微細な感情分類では UF1 がほぼ 0 となり、性能が極めて低かった。
- 微調整: 微調整により言語生成の品質(BLEU/ROUGE)は向上したが、微細な ME 分類の精度向上は限定的だった。特に CAS(ME)3 において粗粒度の性能は改善されたが、微細な感情の区別は依然として困難であることが示された。
ME-LVQA の結果
- 全体的な傾向: 短尺クリップの ME-VQA に比べ、長動画タスクでは性能が大幅に低下した。
- 課題: 微調整を行っても、ME のカウント誤差や AU 認識の誤差は依然として高く、時間的な局所化と微細な顔面動作のモデリングがボトルネックとなっている。
- データ制約の影響: 微調整に使用したデータが 10 被験者(SAMM 5 名、CAS(ME)3 5 名)のみであったため、被験者依存のパターン学習に留まり、未知の人物への汎化が十分に行えなかった可能性が指摘されている。
6. 主要な貢献と意義
- ME 研究のパラダイムシフト: 従来の分類・検出タスクから、自然言語による対話と推論を可能にする VQA タスクへ研究の焦点をシフトさせた。これにより、ME 分析の解釈可能性と人間中心のインタラクションが促進される。
- 長尺動画分析の導入: 現実的な環境(長動画)における ME 分析(ME-LVQA)を初めて公式なチャレンジとして定義し、時間的推論の難しさを浮き彫りにした。
- 大規模モデルの限界と可能性の提示: 最新の LVLM(Qwen シリーズ)を用いたベースライン評価を通じて、これらのモデルが粗粒度の感情にはある程度対応できるものの、マイクロ表情特有の「微細さ」と「時間的変化」を捉えるには、より大規模で多様なデータと専門的な微調整が必要であることを実証した。
- 将来の指針: 本チャレンジの結果は、ME 分析において、単なる分類精度の向上だけでなく、時系列理解と自然言語生成を統合したマルチモーダルアプローチの重要性を強調している。
結論
MEGC2026 は、マイクロ表情研究に「視覚的質問応答」という新しい次元を加え、特に長尺動画における複雑な時間的推論の難しさを浮き彫りにしました。現在の LVLM は言語生成においては有望ですが、マイクロ表情の微細な特徴を捉えるためには、より大規模で多様なデータセットを用いたモデルの発展と、時間的推論能力の強化が不可欠であることが示されました。