HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

本論文は、ABAW-10 コンペティションにおける表情認識、価数・覚醒度推定、行動単位検出、および微細な暴力分類の各タスクにおいて、事前学習済みモデルと単純な多層パーセプトロンを組み合わせ、予測の平滑化や動画分類のための特徴量集約を採用することで、既存のベースラインを大幅に上回る性能を達成したHSEmotion チームの手法と結果を報告しています。

Andrey V. Savchenko, Kseniia Tsypliakova

公開日 2026-03-16
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎭 物語の舞台:「感情の嵐」を鎮めるコンテスト

このコンテストでは、AI に「動画を見て、今どんな感情を持っているか(怒り、喜びなど)」や「どの筋肉が動いているか(まぶたが閉じるとか)」、さらには「暴力行為が起きているか」を瞬時に判断させる課題が出されました。

しかし、現実世界の動画は**「感情の嵐」**のようなものです。

  • 光が暗かったり、顔が隠れていたり。
  • 表情が一瞬で変わったり。
  • データのラベル(正解)が間違っていたり。

そんなカオスな状況でも、AI が冷静に正解を出すにはどうすればいいか?HSEmotion チームは、「賢いベテラン」と「素早い新人」のタッグというアイデアで解決しました。


🧠 1. 顔の感情認識(EXPR):「ベテラン」と「新人」のタッグ

彼らが開発したシステムは、まるで**「経験豊富なベテラン」「計算が速い新人」**が一緒に働いているようなものです。

  1. ベテラン(事前学習済みモデル):
    まず、AI は「EmotiEffNet」という、すでに何十万枚もの写真で勉強した「ベテラン」に顔を見せます。

    • ベテランの判断: 「あ、この顔は『喜び』だ!自信 100% だ!」と言えれば、そのままその答えを採用します。
    • ベテランの迷い: 「うーん、ちょっと曖昧だな…」と自信がない場合は、次のステップへ進みます。
  2. 新人(MLP という簡単な脳):
    ベテランが迷った場合、その顔の情報を「新人(MLP)」に渡します。この新人は、コンテスト用のデータ(AffWild2)で特別に訓練されています。

    • バランス調整: 新人は「怒り」のデータが少ないことに気づき、「怒り」の点数を少し上げて公平に判断します(これを「GLA」という技術で調整)。
  3. 滑らかな動き(スライディングウィンドウ):
    動画はコマ送りのため、一コマずつ見ると「喜び→悲しみ→喜び」とカクカクした判断になりがちです。チームは、**「数コマ分をまとめて平均化する」**というテクニックを使い、感情の変化を滑らかなアニメーションのように自然にしました。

🎉 結果: この「ベテランの直感」と「新人の計算」を組み合わせ、さらに滑らかにするだけで、既存の複雑なシステムよりも高い精度を叩き出しました。


📊 2. 感情の強さ(VA)と筋肉の動き(AU):「微妙なニュアンス」の読み取り

  • VA(Valence-Arousal): 感情が「ポジティブかネガティブか(Valence)」と「興奮しているか冷静か(Arousal)」を数値で測るタスクです。
    • ここでも同じ「ベテラン+新人」の仕組みを使いましたが、特に「MT-DDAMFN」というモデルが得意とする、微妙なニュアンスを捉えることに成功しました。
  • AU(Action Unit): 顔の 12 種類の筋肉の動き(眉が上がる、口角が上がるなど)を検知するタスクです。
    • ここでは「ベテラン」が言った「確信度」と「新人」が計算した「確率」を混ぜ合わせて、最も確実な答えを選びました。

🚨 3. 暴力検知(VD):「全身の動き」を見る警備員

顔の表情だけでなく、「暴力行為」を検知するタスクもあります。これは顔だけでなく、**「全身の動き」や「背景」**を見る必要があります。

  • 従来の方法: 3D で動画をまるごと解析する重いカメラ(3D CNN など)を使おうとしましたが、計算が重すぎて精度が上がりませんでした。
  • HSEmotion の方法: **「高解像度の静止画カメラ(ConvNeXt)」+「短い時間の動きを見るセンサー(TCN)」**という組み合わせを使いました。
    • アナロジー: 暴力的な出来事は、一瞬の「静止画」でも雰囲気が伝わります。そこで、まず高画質で「その瞬間の状況」を捉え、その直前の数コマの「動き」を軽くチェックするだけで、非常に高い精度で暴力を察知できました。
    • さらに、**「骨格(スケーレトン)」**の動きも読み取れるようにし、人がどう動いているかを追加情報として取り入れました。

🏆 結果: 彼らのシステムは、過去のコンテストの記録を大きく更新し、「重いカメラ」を使わずに、軽快に、かつ正確に暴力を検知できることを証明しました。


💡 まとめ:なぜこれがすごいのか?

この論文の最大の特徴は、**「複雑なことを単純化する」**という発想です。

  • 重厚な AI ではなく、軽量な AI: 巨大な計算能力を必要とする代わりに、**「ベテランの直感」「簡単な調整」**を組み合わせることで、高速かつ高精度なシステムを作りました。
  • 現実世界に強い: 光が暗い、顔が隠れている、データが偏っているといった「現実の messy(汚い)な状況」でも、**「自信があればベテランに任せ、迷えば新人が補正する」**という仕組みが、安定した結果を生みました。

一言で言うと:
「感情を理解する AI」や「暴力を検知する AI」を作る際、**「何でもかんでも巨大な脳みそを使う必要はない。賢いベテランと、状況に合わせた調整ができるシンプルな仕組みがあれば、もっと早く、もっと正確に動ける」**という、とても実用的で素晴らしいアイデアを提案した論文です。

彼らのコードは公開されており、これからこの分野を学ぶ人々にとって、非常に参考になる「お手本」となっています。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →