Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning
本論文は、多モーダル大規模言語モデルの感情理解能力を向上させるため、心の理論(ToM)に基づく階層的ベンチマーク「HitEmotion」、ToM 誘導の推論チェーン、および中間メンタル状態を教師信号とする強化学習手法「TMPO」を提案し、これらが最先端モデルの感情推論能力の欠陥を明らかにするとともに、精度と推論の忠実性を高めることを実証したものである。