Social Norm Reasoning in Multimodal Language Models: An Evaluation

이 논문은 텍스트와 이미지를 기반으로 한 30 개의 시나리오를 통해 다섯 가지 멀티모달 대형 언어 모델 (MLLM) 의 사회적 규범 추론 능력을 인간과 비교 평가한 결과, 텍스트 기반에서는 성능이 우수하지만 이미지 기반에서는 상대적으로 낮으며 GPT-4o 가 가장 뛰어난 성과를 보였음을 밝혔습니다.

Oishik Chowdhury, Anushka Debnath, Bastin Tony Roy Savarimuthu

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 주제: AI 의 '사회적 감수성' 시험

우리가 살아가는 사회에는 눈에 보이지 않는 규칙들이 많습니다. "문을 두드리고 들어간다", "쓰레기를 버리지 않는다", "줄을 서서 기다린다" 같은 것들이죠. 연구자들은 이 규칙을 지키는지, 혹은 위반하는지 AI 가 판단할 수 있는지 궁금해했습니다.

특히 이번 연구는 AI 가 **글 (텍스트)**로 된 이야기를 읽는 것과, **그림 (이미지)**으로 된 이야기를 보는 것 중 어떤 것을 더 잘 이해하는지 비교했습니다.

🎭 실험 방법: 5 명의 학생과 30 개의 이야기

연구진은 최신 AI 5 명 (GPT-4o, Gemini, Qwen 등) 을 '학생'으로 뽑아 시험을 보게 했습니다.

  1. 시험지 구성:

    • 30 개의 이야기: 5 가지 상황 (문 두드리기, 쓰레기 버리기, 줄 서기, 시간 엄수, 노약자 자리 양보) 에 대해 각각 6 가지 다른 결말이 있는 이야기를 만들었습니다.
    • 형식: 글로 된 이야기 30 개와, 이를 만화처럼 그린 그림 30 개.
    • 문제: "누가 규칙을 지켰나요?", "칭찬을 받았나요?", "벌을 받았나요?", "규칙을 어긴 사람을 벌주지 않은 사람을 벌했나요?" 등 총 8 가지 질문을 냈습니다.
  2. 정답 확인:

    • 인간 전문가들이 먼저 정답을 정해두었고, AI 의 답이 인간과 일치하는지 점수를 매겼습니다.

📊 실험 결과: "글은 잘 읽는데, 그림은 헷갈려!"

시험 결과는 매우 흥미로웠습니다.

  1. 글 vs 그림 (텍스트 대 이미지):

    • AI 는 글로 된 이야기를 읽을 때 규칙을 아주 잘 이해했습니다. (약 95% 정답률)
    • 하지만 그림을 보고 이해할 때는 점수가 조금 떨어졌습니다. (약 84% 정답률)
    • 비유하자면: AI 는 "책을 읽으면 내용을 완벽하게 이해하지만, 만화책을 보면 그림 속의 미세한 표정이나 상황을 오해할 때가 있다"는 뜻입니다.
  2. 누가 가장 잘했나? (Top 3):

    • 🥇 1 등: GPT-4o (가장 똑똑한 학생)
      • 글과 그림 모두에서 압도적인 성적을 거두었습니다. 로봇이나 AI 비서로 쓰기 가장 유망한 모델입니다.
    • 🥈 2 등: Qwen-2.5VL (무료로 쓸 수 있는 훌륭한 학생)
      • GPT-4o 다음으로 잘하며, 무료로 사용할 수 있어 연구자들에게 큰 희망을 줍니다.
    • 🥉 3 등: 나머지 모델들은 GPT-4o 보다 점수가 낮았거나, 특히 그림 이해도에서 어려움을 겪었습니다.
  3. 어떤 문제가 hardest(가장 어려웠나)?

    • 복잡한 규칙 (메타 규범): "규칙을 어긴 사람을 벌하지 않은 사람도 벌해야 한다" 같은 중첩된 규칙은 AI 가 가장 어려워했습니다. 마치 "누가 누구를 혼내지 않았는지까지 기억해야 하는" 복잡한 논리 문제처럼 보였습니다.
    • 칭찬과 격려: 그림 속에서 "누군가 칭찬하는 모습"을 AI 가 정확히 파악하는 것은 생각보다 어려웠습니다.

💡 이 연구가 우리에게 주는 의미

이 실험은 **"AI 가 인간 사회에 들어와서 함께 살 수 있을까?"**에 대한 중요한 단서를 줍니다.

  • 현재 상태: AI 는 글로 된 규칙을 읽으면 아주 똑똑하게 행동할 수 있습니다. 하지만 실제 상황 (그림이나 영상) 을 보고 즉각적인 판단을 내릴 때는 아직 인간처럼 완벽하지 않습니다.
  • 미래 전망: GPT-4o 나 Qwen 같은 모델이 발전하면, 로봇이 우리가 사는 사회의 '눈치'를 보고 행동할 수 있게 될 것입니다.
    • 예를 들어, 로봇이 엘리베이터에서 노약자에게 자리를 양보하거나, 누군가 쓰레기를 버리는 것을 보고 "그건 안 돼요"라고 말해줄 수 있게 되는 거죠.

🚀 결론

이 논문은 **"AI 가 인간의 사회적 규칙을 배우는 과정"**을 평가한 것입니다. 결과는 **"글은 잘 읽지만, 그림을 볼 때는 아직 조금 더 연습이 필요하다"**는 것입니다. 하지만 GPT-4o 같은 최신 모델이 그 가능성을 보여주고 있어, 앞으로는 로봇이 우리 사회의 예절을 지키는 '착한 이웃'이 될 날이 머지않았음을 시사합니다.