Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

本論文は、既存の評価手法の限界を克服し、自動化パイプラインを用いた「感情ステートメント判定」タスクを提案することで、マルチモーダル大規模言語モデルの視覚的感情認識能力をオープンボキャブラリーかつ多角的に評価する新たな枠組みを構築し、現状のモデルと人間の間に依然として大きなギャップがあることを明らかにしています。

Daiqing Wu, Dongbao Yang, Sicheng Zhao, Can Ma, Yu Zhou

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎭 1. 従来の問題:「正解」が一つしかないテストはダメだった

これまでの AI の感情評価は、「この画像は『悲しみ』です」という正解が一つ決まっているテストのようなものでした。

  • 問題点 A(柔軟性の欠如):
    例えば、ある写真を見て「悲しい」と感じる人もいれば、「勇気を感じて感動する」と感じる人もいます。従来のテストは「正解は『悲しみ』だけ」と決めていたため、AI が「感動」と答えても「不正解」として扱われてしまいました。

    例え話:
    料理の味見テストで、「このスープは『塩辛い』のが正解」と決まっているとします。でも、ある人は「スパイシーで美味しい」と感じ、別の人は「甘くて優しい」と感じます。もし「正解は塩辛いだけ」というルールなら、「美味しい」と答えた人の感想はすべて「間違い」とされてしまいます。これでは本当の味(感情)は測れませんよね。

  • 問題点 B(文脈の無視):
    画像そのものだけでなく、「どんな状況で撮られたか」という背景も感情に影響します。しかし、従来のテストは背景を無視していました。

  • 問題点 C(人手不足):
    正しいラベルをつけるために、何万人もの人にアンケートを取らなければならず、とても大変でコストがかかりました。


💡 2. 新しい解決策:「感情の声明文」を正誤判定するゲーム

そこで著者たちは、**「ESJ(感情声明文判定)」**という新しいゲーム形式を考案しました。

  • 新しいルール:
    AI に画像を見せ、**「この文章は正しいですか?」**と聞きます。
    • 例:「この画像を見ると、消防士は『恐怖』よりも『焦り』を感じやすいでしょう」という文章が正しいか、AI に判断させます。

例え話:
従来のテストが「この絵は何色?(赤、青、黄)」という選択問題だったのに対し、新しいテストは**「この絵を見て『赤』だと思う人はいますか?」「『青』だと思う人はいますか?」という意見に対して、AI が『はい、それはあり得ます』と合意できるか**を問う形式です。
これなら、「正解」が一つではなく、多様な意見(主観)を認められるようになります。


🏭 3. 自動工場の登場:「INSETS」という魔法の機械

この新しいテストを作るには、膨大な「画像」と「文章」のペアが必要ですが、人間が一つ一つ作るには時間がかかりすぎます。

そこで、**「INSETS(インセットス)」**という自動システムを開発しました。

  • 仕組み:
    1. 複数の AI に画像を見てもらい、「どんな感情が湧くか」を自由に言葉で言わせます(「喜び」「興奮」「安堵」など、自由な言葉で OK)。
    2. 心理学の理論に基づき、それらの言葉を整理して分類します。
    3. 自動的に「正しい文章」と「わざと間違った文章」を大量に作ります。

例え話:
以前は、料理のレシピ(テスト問題)を作るために、料理人が何百人も集まって手作業で書いていたのが大変でした。
しかし、「INSETS」は、複数の料理人(AI)に「この食材でどんな味がする?」と聞いて、その意見をまとめて、自動的に「美味しいレシピ」と「まずいレシピ」を何万冊も印刷してくれる魔法の工場のようなものです。人間の手間は最小限で、大量のテスト問題が作れます。


📊 4. 結果:AI はまだ人間には及ばない

この新しいテスト(MVEI ベンチマーク)を使って、最新の AI(GPT-4o など)をテストしました。

  • 結果:
    • 得意なこと: 画像から基本的な感情(「これは楽しい」「これは悲しい」)を読み取る能力は、以前より格段に向上しました。
    • 苦手なこと:
      1. 感情の「色」を判断する: 「これは完全にポジティブか、ネガティブか、それとも両方混ざっているか」の判断が苦手です。
      2. 主観の理解: 「この画像を見た 35 歳の男性は、女性よりも『恐怖』を感じやすい」といった、**「見る人によって感情が変わる」**という複雑な部分を理解するのが非常に苦手です。

例え話:
最新の AI は、「料理の材料を見て『これは甘い料理だ』と当てるのは得意になりました。
しかし、『この料理を、疲れているおじさんが見たら「辛い」と感じるかもしれないが、元気な子供が見たら「美味しい」と感じるかもしれない』という、見る人の心情や状況による微妙な違いまで理解するのは、まだ人間に遠く及びません。
人間は 90% 以上の正解率ですが、最高の AI でも 70% 台止まりです。


🚀 5. まとめ:これからどうなる?

この研究は、**「AI に感情を理解させるためには、正解を一つに絞るのではなく、多様な意見や背景を認めるテストが必要だ」**と示しました。

  • 今後の展望:
    AI が人間の感情をより深く理解できるようになるためには、この新しいテストを使って AI を鍛え直す(学習させる)ことが重要です。特に「人によって感じ方が違う」という部分の理解は、AI が人間とより深くコミュニケーションを取るための鍵となるでしょう。

一言で言うと:
「AI の感情テストを、『正解を当てるクイズ』から『多様な意見を尊重する議論』に変え、自動で大量の練習問題を作れるようにした。その結果、AI はまだ『人の心(主観)』を理解するには至っていないが、これから成長する可能性が広がった」という論文です。