Each language version is independently generated for its own context, not a direct translation.

🎭 物語の舞台：「感情の嵐」を鎮めるコンテスト

このコンテストでは、AI に「動画を見て、今どんな感情を持っているか（怒り、喜びなど）」や「どの筋肉が動いているか（まぶたが閉じるとか）」、さらには「暴力行為が起きているか」を瞬時に判断させる課題が出されました。

しかし、現実世界の動画は**「感情の嵐」**のようなものです。

光が暗かったり、顔が隠れていたり。
表情が一瞬で変わったり。
データのラベル（正解）が間違っていたり。

そんなカオスな状況でも、AI が冷静に正解を出すにはどうすればいいか？HSEmotion チームは、「賢いベテラン」と「素早い新人」のタッグというアイデアで解決しました。

🧠 1. 顔の感情認識（EXPR）：「ベテラン」と「新人」のタッグ

彼らが開発したシステムは、まるで**「経験豊富なベテラン」と「計算が速い新人」**が一緒に働いているようなものです。

ベテラン（事前学習済みモデル）：
まず、AI は「EmotiEffNet」という、すでに何十万枚もの写真で勉強した「ベテラン」に顔を見せます。
- ベテランの判断： 「あ、この顔は『喜び』だ！自信 100% だ！」と言えれば、そのままその答えを採用します。
- ベテランの迷い： 「うーん、ちょっと曖昧だな…」と自信がない場合は、次のステップへ進みます。
新人（MLP という簡単な脳）：
ベテランが迷った場合、その顔の情報を「新人（MLP）」に渡します。この新人は、コンテスト用のデータ（AffWild2）で特別に訓練されています。
- バランス調整： 新人は「怒り」のデータが少ないことに気づき、「怒り」の点数を少し上げて公平に判断します（これを「GLA」という技術で調整）。
滑らかな動き（スライディングウィンドウ）：
動画はコマ送りのため、一コマずつ見ると「喜び→悲しみ→喜び」とカクカクした判断になりがちです。チームは、**「数コマ分をまとめて平均化する」**というテクニックを使い、感情の変化を滑らかなアニメーションのように自然にしました。

🎉 結果： この「ベテランの直感」と「新人の計算」を組み合わせ、さらに滑らかにするだけで、既存の複雑なシステムよりも高い精度を叩き出しました。

📊 2. 感情の強さ（VA）と筋肉の動き（AU）：「微妙なニュアンス」の読み取り

VA（Valence-Arousal）： 感情が「ポジティブかネガティブか（Valence）」と「興奮しているか冷静か（Arousal）」を数値で測るタスクです。
- ここでも同じ「ベテラン＋新人」の仕組みを使いましたが、特に「MT-DDAMFN」というモデルが得意とする、微妙なニュアンスを捉えることに成功しました。
AU（Action Unit）： 顔の 12 種類の筋肉の動き（眉が上がる、口角が上がるなど）を検知するタスクです。
- ここでは「ベテラン」が言った「確信度」と「新人」が計算した「確率」を混ぜ合わせて、最も確実な答えを選びました。

🚨 3. 暴力検知（VD）：「全身の動き」を見る警備員

顔の表情だけでなく、「暴力行為」を検知するタスクもあります。これは顔だけでなく、**「全身の動き」や「背景」**を見る必要があります。

従来の方法： 3D で動画をまるごと解析する重いカメラ（3D CNN など）を使おうとしましたが、計算が重すぎて精度が上がりませんでした。
HSEmotion の方法： **「高解像度の静止画カメラ（ConvNeXt）」＋「短い時間の動きを見るセンサー（TCN）」**という組み合わせを使いました。
- アナロジー： 暴力的な出来事は、一瞬の「静止画」でも雰囲気が伝わります。そこで、まず高画質で「その瞬間の状況」を捉え、その直前の数コマの「動き」を軽くチェックするだけで、非常に高い精度で暴力を察知できました。
- さらに、**「骨格（スケーレトン）」**の動きも読み取れるようにし、人がどう動いているかを追加情報として取り入れました。

🏆 結果： 彼らのシステムは、過去のコンテストの記録を大きく更新し、「重いカメラ」を使わずに、軽快に、かつ正確に暴力を検知できることを証明しました。

💡 まとめ：なぜこれがすごいのか？

この論文の最大の特徴は、**「複雑なことを単純化する」**という発想です。

重厚な AI ではなく、軽量な AI： 巨大な計算能力を必要とする代わりに、**「ベテランの直感」と「簡単な調整」**を組み合わせることで、高速かつ高精度なシステムを作りました。
現実世界に強い： 光が暗い、顔が隠れている、データが偏っているといった「現実の messy（汚い）な状況」でも、**「自信があればベテランに任せ、迷えば新人が補正する」**という仕組みが、安定した結果を生みました。

一言で言うと：
「感情を理解する AI」や「暴力を検知する AI」を作る際、**「何でもかんでも巨大な脳みそを使う必要はない。賢いベテランと、状況に合わせた調整ができるシンプルな仕組みがあれば、もっと早く、もっと正確に動ける」**という、とても実用的で素晴らしいアイデアを提案した論文です。

彼らのコードは公開されており、これからこの分野を学ぶ人々にとって、非常に参考になる「お手本」となっています。

Each language version is independently generated for its own context, not a direct translation.

ABAW-10 競争における HSEmotion チームの技術的概要

本論文は、第 10 回 Affective Behavior Analysis in-the-Wild (ABAW-10) 競争における HSEmotion チームの成果を報告したものです。著者は、Sber AI Lab と HSE University に所属する Andrey V. Savchenko と Kseniia Tsypliakova です。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 問題定義

ABAW-10 競争では、自然環境下（In-the-Wild）での人間の感情行動分析が課題とされています。本チームは以下の 4 つのタスクに焦点を当てました。

フレーム単位の表情認識 (EXPR): 動画の各フレームを 8 種類の基本感情（中立、怒り、嫌悪、恐怖、喜び、悲しみ、驚き、その他）に分類する。
価数・覚醒度推定 (VA Estimation): 各フレームの価数（Valence: 正負の感情）と覚醒度（Arousal: 興奮度）を連続値 [-1, 1] で推定する。
アクションユニット検出 (AU Detection): 顔の 12 種類の微細な筋肉運動（AU）の有無をマルチラベル分類する。
微細な暴力検出 (Fine-Grained Violence Detection, VD): 動画の各フレームを「暴力」または「非暴力」に分類する。これは顔の分析だけでなく、全身の動きや文脈の理解を必要とする。

これらのタスクは、照明変化、姿勢の多様性、オクルージョン（遮蔽）、ノイズのあるアノテーション、クラス不均衡といった現実世界の課題に直面しています。

2. 提案手法

2.1. 表情認識、VA 推定、AU 検出 (顔分析タスク)

これら 3 つのタスクに対して、軽量かつ高速なパイプラインを提案しました（図 1 参照）。

事前学習済みモデルの活用:
- EmotiEffLib ライブラリ（HSEmotion 以前）から提供される、AffectNet データセットで事前学習された軽量モデル（EfficientNet ベース、MT-DDAMFN など）を使用します。
- これらのモデルから各フレームの顔領域を抽出し、顔の埋め込みベクトル (Embeddings) を取得します。
ハイブリッド推論戦略:
- 事前学習モデルの予測信頼度（最大確率）が高い場合（閾値 $p_0$ 以上）、その予測を直接採用します。
- 信頼度が低い場合、取得した埋め込みベクトルを AffWild2 データセットで学習した多層パーセプトロン (MLP) に投入して予測を行います。
不均衡への対応 (GLA):
- AffWild2 データセットは感情クラス間で極端な不均衡があります。これを解決するため、一般化対数調整 (Generalized Logit Adjustment: GLA) を採用し、MLP の最終層のバイアスを調整して F1 スコアを最大化します。
時間的平滑化:
- フレーム単位の予測ノイズを低減するため、固定サイズのスライディングウィンドウ内で予測確率を平均化し、時間的に一貫した出力を生成します。
マルチモーダル融合:
- 音声特徴量（wav2vec 2.0）を抽出し、顔の予測と重み付けして融合（Late-fusion）することで精度を向上させます。

2.2. 微細な暴力検出 (VD)

VD タスクでは、顔だけでなく全身の動きや文脈を捉える必要があるため、異なるアプローチを採用しました。

フレーム特徴抽出:
- ImageNet-1K で事前学習された ConvNeXt-T をバックボーンとして使用し、各フレームから 768 次元の特徴量を抽出します。
時間的モデル:
- 抽出された特徴量に対して、TCN (Temporal Convolutional Network) または BiLSTM を適用して時間的な依存関係をモデル化します。
マルチモーダル拡張:
- RGB 画像に加え、MediaPipe Pose で抽出したスケルトン特徴量（関節座標、速度、相互作用距離など）をクロスアテンション機構を通じて融合する手法も検討しました。

3. 主要な貢献

軽量で高精度なパイプラインの提案:
- 複雑な時系列モデル（Transformer や大規模な 3D CNN）に依存せず、事前学習された軽量エンコーダと単純な MLP、および GLA によるバイアス調整を組み合わせることで、計算効率と高精度を両立させました。
信頼度ベースのフィルタリング:
- 事前学習モデルの自信度が高い場合はその出力を直接使用し、低い場合のみ MLP に委ねるというハイブリッド戦略により、ノイズの多いデータに対するロバスト性を向上させました。
クラス不均衡とノイズへの対処:
- GLA とスライディングウィンドウによる平滑化を組み合わせることで、現実世界のデータセット特有のクラス不均衡とアノテーションノイズを効果的に軽減しました。
実用性の向上:
- 従来の TensorFlow 2.x 環境から PyTorch へ移行し、コードの再利用性と研究者・実務者へのアクセシビリティを向上させました。

4. 実験結果

ABAW-10 公式検証セットおよび過去のベンチマークとの比較において、提案手法は顕著な性能向上を示しました。

表情認識 (EXPR):
- 提案手法（EmotiEffNet + GLA + フィルタリング + 平滑化）は、F1 スコア 47.40、精度 57.98% を達成しました。
- これは、ベースライン（VGGFACE: F1 25.0）や、過去の上位入賞者（CLIP+TCN: F1 46.51）を上回る結果です。
価数・覚醒度推定 (VA):
- 平均 CCC (Concordance Correlation Coefficient) で 0.562 を達成し、ResNet-50 ベースライン (0.22) や既存の DDAMFN+LSTM (0.479) を大きく上回りました。
アクションユニット検出 (AU):
- 平均 F1 スコア 54.7% を達成し、単純なベースライン (39.0%) や一部の音声単独モデルを凌駕しました。
暴力検出 (VD):
- ConvNeXt-T + TCN の組み合わせにより、Macro F1 スコア 0.783 を達成しました。
- これは ABAW-9 のベースライン (ResNet-50+BiLSTM: 0.640) よりも 0.14 以上改善された結果であり、3D 動画モデル（VideoMAE や R(2+1)D など）よりも優れた性能を示しました。

5. 意義と結論

本論文で提案されたアプローチは、研究レベルの感情認識を、実世界での展開に適したシステムへと橋渡しする重要なステップです。

実用性と効率性: 大規模な計算リソースを必要としない軽量な設計でありながら、複雑な時系列モデルに匹敵、あるいは凌駕する精度を達成しました。
ロバスト性: 不均衡データ、ノイズ、ドメインシフトに対して頑健な設計（GLA、フィルタリング、平滑化）により、現実のアプリケーション（ドライバー安全性、コンテンツモデレーション、メンタルヘルス監視など）での利用可能性が高まりました。
再現性: PyTorch 実装の公開により、他の研究者による実験の再現と発展が容易になりました。

今後は、自己教師あり学習による事前学習の強化や、ドメイン適応的なキャリブレーション、長期的な時間的一貫性をさらに高めるためのモデル開発が今後の課題として挙げられています。

HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification

🎭 物語の舞台：「感情の嵐」を鎮めるコンテスト

🧠 1. 顔の感情認識（EXPR）：「ベテラン」と「新人」のタッグ

📊 2. 感情の強さ（VA）と筋肉の動き（AU）：「微妙なニュアンス」の読み取り

🚨 3. 暴力検知（VD）：「全身の動き」を見る警備員

💡 まとめ：なぜこれがすごいのか？

ABAW-10 競争における HSEmotion チームの技術的概要

1. 問題定義

2. 提案手法

2.1. 表情認識、VA 推定、AU 検出 (顔分析タスク)

2.2. 微細な暴力検出 (VD)

3. 主要な貢献

4. 実験結果

5. 意義と結論

関連論文

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks