Social Norm Reasoning in Multimodal Language Models: An Evaluation

本論文は、マルチモーダル大規模言語モデル(MLLM)の社会的規範推論能力をテキストおよび画像に基づく物語を用いて評価し、GPT-4o が両モダリティで最も優れた性能を示すものの、画像理解や複雑な規範の推論には依然として課題があることを明らかにしました。

Oishik Chowdhury, Anushka Debnath, Bastin Tony Roy Savarimuthu

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「ロボットや AI が、人間の『暗黙のルール(マナー)』を理解できるか?」**という面白い実験について書かれています。

まるで、**「新しい生徒(AI)に、人間社会の『お行儀のテスト』を受けさせた」**ような話です。

以下に、専門用語を避けて、わかりやすい比喩を使って解説します。


1. 実験の目的:ロボットに「空気を読む」力を試す

昔のロボットは、ルールを「1+1=2」のように厳密な命令(コード)で教えていました。でも、人間社会はもっと複雑です。「お年寄りに席を譲る」「並ぶときは列を乱さない」といった**「空気を読む力」「マナー」**を、言葉や画像から自然に理解させる必要があります。

そこで研究者たちは、最新の**「マルチモーダル AI(言葉も画像も見る AI)」**にテストを受けさせました。

2. テストの内容:30 枚の「漫画」と 30 個の「物語」

AI に以下の 2 つの形式でテストを出しました。

  • テキスト(物語): 「公園でゴミを捨てた人が、注意されて謝った」という短い話。
  • 画像(漫画): 同じ話を 4 コマ漫画で描いたもの。

テストのシチュエーション(5 種類):

  1. 部屋に入る前にノックする
  2. 公園でゴミを捨てない
  3. 列に並ぶ
  4. 時間を守る
  5. お年寄りに席を譲る

バリエーション(6 種類):
それぞれのシチュエーションで、以下のような「展開」を変えてみました。

  • 良い行い: マナーを守った(褒められた/褒められなかった)
  • 悪い行い: マナーを破った(注意された/叱られた/何も言われなかった)
  • 超複雑な行い(メタ規範): 「マナーを破った人を叱らなかった人」まで叱る(これは少し高度なルールです)

AI には、この話を見て「誰がルールを守った?」「誰が叱られた?」「誰が叱られなかった?」といった 8 個の質問に答えるよう求められました。

3. 実験の結果:言葉は得意、画像は苦手

5 つの AI モデル(GPT-4o や Qwen など)を人間と比べてテストしたところ、面白い結果が出ました。

  • 🏆 優勝は GPT-4o: どのテストでも一番上手でした。特に**「言葉(テキスト)」**のテストでは、ほぼ満点(98% 以上)の正解率でした。
  • 🥈 準優勝は Qwen-2.5VL: 無料で使えるモデルですが、非常に優秀でした。
  • 📉 苦手分野: どの AI も**「画像(漫画)」**からの理解は、言葉に比べると少し苦手でした(正解率は 80% 台)。
    • 例え話: AI は「物語を読むこと」は得意ですが、「漫画の絵を見て、その場の空気や感情を読み取る」のが少し難しいようです。
  • 🤯 難問は「メタ規範」: 「マナーを破った人を叱らなかった人」を叱るという、**「ルールを守るルール」**のような複雑な話になると、AI は混乱して間違えやすくなりました。

4. なぜこの研究が重要なのか?

この研究は、**「ロボットが人間社会に溶け込むための第一歩」**です。

もし、この AI がもっと進化すれば、以下のようなことが可能になります。

  • 社会ロボット: 老人ホームや学校で、人間が困っている様子を見て、自然に助けたり、マナー違反を優しく指摘したりするロボット。
  • アプリ: 写真を見て「この写真、マナー違反かも?」と教えてくれるアプリ。

5. まとめ:AI はまだ「勉強中」

この論文の結論はシンプルです。

「最新の AI は、人間のマナーを『言葉』で理解する能力はすでに非常に高い。でも、『画像』から理解したり、複雑な『ルールの中のルール』を判断したりするのは、まだ練習が必要だ。」

GPT-4o が最も有望ですが、無料で使える「Qwen」も素晴らしい候補です。今後は、動画を見せたり、実際にロボットに搭載して実社会で試したりすることで、さらに賢い「社会人 AI」が生まれるかもしれません。


一言で言うと:
「AI に『お行儀テスト』を受けさせたら、『言葉』ならほぼ満点だが、『絵』や『複雑なルール』だと少し間違えることがわかった。でも、ロボットが人間と仲良く暮らすための大きな一歩になったよ!」