Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach
本論文は、既存の評価手法の限界を克服し、自動化パイプラインを用いた「感情ステートメント判定」タスクを提案することで、マルチモーダル大規模言語モデルの視覚的感情認識能力をオープンボキャブラリーかつ多角的に評価する新たな枠組みを構築し、現状のモデルと人間の間に依然として大きなギャップがあることを明らかにしています。