Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Each language version is independently generated for its own context, not a direct translation.

지금까지 AI 가 그림 속 감정을 이해하는지 테스트할 때는 주로 **"이 그림의 감정은 무엇인가?"**라고 물어서 정해진 감정 단어 (예: 기쁨, 슬픔, 분노) 중 하나를 고르게 했습니다.

하지만 연구자들은 이 방식이 AI 에게는 너무 억지스럽다고 지적합니다.

비유: 마치 **"이 그림을 보면 어떤 감정이 드나요?"**라고 물었을 때, 사람이 "기쁨"이라고 답해도, AI 는 정답이 "행복"이라고 되어 있다면 틀린 답으로 처리하는 것과 같습니다.
한계:
1. 유연성 부족: 사람의 감정은 복잡하고 주관적인데, 정해진 정답지 (단어) 만으로는 다 표현할 수 없습니다.
2. 맥락 무시: 그림 자체만 보고 감정을 판단하라고 하면, "화재 진압 중인 소방관" 그림을 보고 AI 가 '위험'이라고만 생각할 수 있지만, 실제로는 '용기'나 '희생' 같은 맥락이 중요할 수 있습니다.
3. 사람의 개성 무시: 같은 그림을 봐도 30 대 남성은 '두려움'을 느끼고, 20 대 여성은 '감동'을 느낄 수 있는데, 기존 평가는 이 차이를 고려하지 못했습니다.

연구자들은 AI 를 평가할 때, 정답을 맞추게 하는 대신 **"이 문장이 이 그림에 맞나요?"**라고 물어보는 새로운 방식을 고안했습니다. 이를 ESJ(감정 진술 판단) 라고 부릅니다.

새로운 방식 (ESJ):
- AI 에게 그림과 함께 "이 그림을 보면 사람들은 두려움을 느낄 것이다"라는 문장을 보여줍니다.
- AI 는 "맞다 (Correct)" 또는 "틀리다 (Incorrect)"라고 판단하면 됩니다.
- 장점: AI 가 직접 감정을 말로 표현할 필요 없이, 주어진 설명이 논리적으로 맞는지 판단하면 되므로 훨씬 정확하고 다양한 감정을 테스트할 수 있습니다.
자동화 공장 (INSETS):
- 이렇게 수많은 문장을 사람이 일일이 만들면 시간이 너무 오래 걸립니다. 그래서 연구자들은 INSETS라는 자동화 시스템을 만들었습니다.
- 비유: 마치 감정 분류 공장 같습니다. AI 여러 대가 그림을 보고 다양한 감정 단어를 뽑아내고, 이를 정리해서 "이 그림은 용기를 보여준다", "이 그림은 슬픔을 유발한다" 같은 문장들을 자동으로 만들어냅니다.
- 이 과정을 통해 46 만 개 이상의 데이터 (INSETS-462k) 를 자동으로 만들었고, 그중에서 사람이 최종 검수를 거쳐 MVEI라는 정밀한 시험지 (벤치마크) 를 완성했습니다.

이 새로운 시험지 (MVEI) 로 최신 AI 들 (GPT-4o 등) 을 시험해 본 결과는 다음과 같습니다.

AI 의 장점:
- 감정 해석: "왜 이 사람이 슬퍼할까?"라고 물으면, "눈물이 흐르고 있기 때문"이라고 논리적으로 잘 설명합니다.
- 맥락 이해: "화재 현장에서 소방관이 뛰고 있다"는 맥락이 주어지면, '긴박함'을 잘 이해합니다.
AI 의 약점 (사람과의 차이):
- 감정의 방향성 (긍정/부정): 때로는 AI 가 그림이 '기쁜지 슬픈지'를 혼동합니다.
- 주관성 (가장 큰 약점): **"이 그림을 보면 35 세 남자는 두려움을, 20 대 여성은 감동을 느낄 것이다"**라는 문장에 대해 AI 는 사람의 개성에 따른 감정 차이를 거의 이해하지 못했습니다.
- 결과: 최고의 AI(GPT-4o) 가 70% 정도를 맞췄다면, 인간은 90% 이상을 맞췄습니다. 특히 '주관적인 감정'을 이해하는 부분에서 AI 는 아직 인간과 큰 격차가 있습니다.

이 연구는 AI 가 그림을 보고 감정을 이해하는 능력은 이미 꽤 발전했지만, 인간처럼 미묘한 감정 차이나 개인의 성향을 고려하는 '감성 지능'은 아직 부족하다는 것을 증명했습니다.

핵심 메시지: AI 를 더 똑똑하게 만들기 위해서는 단순히 정답을 맞추는 훈련보다는, **"이 설명이 이 그림의 맥락과 맞을까?"**를 판단하는 훈련과, 사람마다 다른 감정을 이해하는 훈련이 필요하다는 것을 보여줍니다.

한 줄 요약:

"AI 가 그림을 보고 감정을 느끼는 건 아직 '기술자' 수준이지만, 사람의 마음을 읽는 '심리학자'가 되려면 더 많은 훈련이 필요합니다. 이 논문은 그 훈련을 위한 새로운 지도와 나침반을 제시했습니다."

유사한 논문