Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

이 논문은 기존 평가 방법의 한계를 극복하고 MLLM 의 시각적 감정 인식 능력을 개방형 어휘와 다면적 맥락을 고려하여 확장 가능하게 평가하기 위한 '감정 진술 판단 (Emotion Statement Judgment)' 태스크와 자동화 파이프라인을 제안하며, 이를 통해 현재 MLLM 들의 강점과 인간 대비 약점을 규명했습니다.

Daiqing Wu, Dongbao Yang, Sicheng Zhao, Can Ma, Yu Zhou

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제점: "정답지"가 너무 좁은 시험

지금까지 AI 가 그림 속 감정을 이해하는지 테스트할 때는 주로 **"이 그림의 감정은 무엇인가?"**라고 물어서 정해진 감정 단어 (예: 기쁨, 슬픔, 분노) 중 하나를 고르게 했습니다.

하지만 연구자들은 이 방식이 AI 에게는 너무 억지스럽다고 지적합니다.

  • 비유: 마치 **"이 그림을 보면 어떤 감정이 드나요?"**라고 물었을 때, 사람이 "기쁨"이라고 답해도, AI 는 정답이 "행복"이라고 되어 있다면 틀린 답으로 처리하는 것과 같습니다.
  • 한계:
    1. 유연성 부족: 사람의 감정은 복잡하고 주관적인데, 정해진 정답지 (단어) 만으로는 다 표현할 수 없습니다.
    2. 맥락 무시: 그림 자체만 보고 감정을 판단하라고 하면, "화재 진압 중인 소방관" 그림을 보고 AI 가 '위험'이라고만 생각할 수 있지만, 실제로는 '용기'나 '희생' 같은 맥락이 중요할 수 있습니다.
    3. 사람의 개성 무시: 같은 그림을 봐도 30 대 남성은 '두려움'을 느끼고, 20 대 여성은 '감동'을 느낄 수 있는데, 기존 평가는 이 차이를 고려하지 못했습니다.

🛠️ 2. 해결책: "진위 여부 판단" 게임과 자동화 공장

연구자들은 AI 를 평가할 때, 정답을 맞추게 하는 대신 **"이 문장이 이 그림에 맞나요?"**라고 물어보는 새로운 방식을 고안했습니다. 이를 ESJ(감정 진술 판단) 라고 부릅니다.

  • 새로운 방식 (ESJ):

    • AI 에게 그림과 함께 "이 그림을 보면 사람들은 두려움을 느낄 것이다"라는 문장을 보여줍니다.
    • AI 는 "맞다 (Correct)" 또는 "틀리다 (Incorrect)"라고 판단하면 됩니다.
    • 장점: AI 가 직접 감정을 말로 표현할 필요 없이, 주어진 설명이 논리적으로 맞는지 판단하면 되므로 훨씬 정확하고 다양한 감정을 테스트할 수 있습니다.
  • 자동화 공장 (INSETS):

    • 이렇게 수많은 문장을 사람이 일일이 만들면 시간이 너무 오래 걸립니다. 그래서 연구자들은 INSETS라는 자동화 시스템을 만들었습니다.
    • 비유: 마치 감정 분류 공장 같습니다. AI 여러 대가 그림을 보고 다양한 감정 단어를 뽑아내고, 이를 정리해서 "이 그림은 용기를 보여준다", "이 그림은 슬픔을 유발한다" 같은 문장들을 자동으로 만들어냅니다.
    • 이 과정을 통해 46 만 개 이상의 데이터 (INSETS-462k) 를 자동으로 만들었고, 그중에서 사람이 최종 검수를 거쳐 MVEI라는 정밀한 시험지 (벤치마크) 를 완성했습니다.

📊 3. 평가 결과: AI 는 '기술'은 좋지만 '감수성'은 부족

이 새로운 시험지 (MVEI) 로 최신 AI 들 (GPT-4o 등) 을 시험해 본 결과는 다음과 같습니다.

  1. AI 의 장점:

    • 감정 해석: "왜 이 사람이 슬퍼할까?"라고 물으면, "눈물이 흐르고 있기 때문"이라고 논리적으로 잘 설명합니다.
    • 맥락 이해: "화재 현장에서 소방관이 뛰고 있다"는 맥락이 주어지면, '긴박함'을 잘 이해합니다.
  2. AI 의 약점 (사람과의 차이):

    • 감정의 방향성 (긍정/부정): 때로는 AI 가 그림이 '기쁜지 슬픈지'를 혼동합니다.
    • 주관성 (가장 큰 약점): **"이 그림을 보면 35 세 남자는 두려움을, 20 대 여성은 감동을 느낄 것이다"**라는 문장에 대해 AI 는 사람의 개성에 따른 감정 차이를 거의 이해하지 못했습니다.
    • 결과: 최고의 AI(GPT-4o) 가 70% 정도를 맞췄다면, 인간은 90% 이상을 맞췄습니다. 특히 '주관적인 감정'을 이해하는 부분에서 AI 는 아직 인간과 큰 격차가 있습니다.

🔮 4. 결론: AI 는 이제 막 감정을 배우는 중

이 연구는 AI 가 그림을 보고 감정을 이해하는 능력은 이미 꽤 발전했지만, 인간처럼 미묘한 감정 차이나 개인의 성향을 고려하는 '감성 지능'은 아직 부족하다는 것을 증명했습니다.

  • 핵심 메시지: AI 를 더 똑똑하게 만들기 위해서는 단순히 정답을 맞추는 훈련보다는, **"이 설명이 이 그림의 맥락과 맞을까?"**를 판단하는 훈련과, 사람마다 다른 감정을 이해하는 훈련이 필요하다는 것을 보여줍니다.

한 줄 요약:

"AI 가 그림을 보고 감정을 느끼는 건 아직 '기술자' 수준이지만, 사람의 마음을 읽는 '심리학자'가 되려면 더 많은 훈련이 필요합니다. 이 논문은 그 훈련을 위한 새로운 지도와 나침반을 제시했습니다."