Social Norm Reasoning in Multimodal Language Models: An Evaluation

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 주제: AI 의 '사회적 감수성' 시험

우리가 살아가는 사회에는 눈에 보이지 않는 규칙들이 많습니다. "문을 두드리고 들어간다", "쓰레기를 버리지 않는다", "줄을 서서 기다린다" 같은 것들이죠. 연구자들은 이 규칙을 지키는지, 혹은 위반하는지 AI 가 판단할 수 있는지 궁금해했습니다.

특히 이번 연구는 AI 가 **글 (텍스트)**로 된 이야기를 읽는 것과, **그림 (이미지)**으로 된 이야기를 보는 것 중 어떤 것을 더 잘 이해하는지 비교했습니다.

🎭 실험 방법: 5 명의 학생과 30 개의 이야기

연구진은 최신 AI 5 명 (GPT-4o, Gemini, Qwen 등) 을 '학생'으로 뽑아 시험을 보게 했습니다.

시험지 구성:
- 30 개의 이야기: 5 가지 상황 (문 두드리기, 쓰레기 버리기, 줄 서기, 시간 엄수, 노약자 자리 양보) 에 대해 각각 6 가지 다른 결말이 있는 이야기를 만들었습니다.
- 형식: 글로 된 이야기 30 개와, 이를 만화처럼 그린 그림 30 개.
- 문제: "누가 규칙을 지켰나요?", "칭찬을 받았나요?", "벌을 받았나요?", "규칙을 어긴 사람을 벌주지 않은 사람을 벌했나요?" 등 총 8 가지 질문을 냈습니다.
정답 확인:
- 인간 전문가들이 먼저 정답을 정해두었고, AI 의 답이 인간과 일치하는지 점수를 매겼습니다.

📊 실험 결과: "글은 잘 읽는데, 그림은 헷갈려!"

시험 결과는 매우 흥미로웠습니다.

글 vs 그림 (텍스트 대 이미지):
- AI 는 글로 된 이야기를 읽을 때 규칙을 아주 잘 이해했습니다. (약 95% 정답률)
- 하지만 그림을 보고 이해할 때는 점수가 조금 떨어졌습니다. (약 84% 정답률)
- 비유하자면: AI 는 "책을 읽으면 내용을 완벽하게 이해하지만, 만화책을 보면 그림 속의 미세한 표정이나 상황을 오해할 때가 있다"는 뜻입니다.
누가 가장 잘했나? (Top 3):
- 🥇 1 등: GPT-4o (가장 똑똑한 학생)
  - 글과 그림 모두에서 압도적인 성적을 거두었습니다. 로봇이나 AI 비서로 쓰기 가장 유망한 모델입니다.
- 🥈 2 등: Qwen-2.5VL (무료로 쓸 수 있는 훌륭한 학생)
  - GPT-4o 다음으로 잘하며, 무료로 사용할 수 있어 연구자들에게 큰 희망을 줍니다.
- 🥉 3 등: 나머지 모델들은 GPT-4o 보다 점수가 낮았거나, 특히 그림 이해도에서 어려움을 겪었습니다.
어떤 문제가 hardest(가장 어려웠나)?
- 복잡한 규칙 (메타 규범): "규칙을 어긴 사람을 벌하지 않은 사람도 벌해야 한다" 같은 중첩된 규칙은 AI 가 가장 어려워했습니다. 마치 "누가 누구를 혼내지 않았는지까지 기억해야 하는" 복잡한 논리 문제처럼 보였습니다.
- 칭찬과 격려: 그림 속에서 "누군가 칭찬하는 모습"을 AI 가 정확히 파악하는 것은 생각보다 어려웠습니다.

💡 이 연구가 우리에게 주는 의미

이 실험은 **"AI 가 인간 사회에 들어와서 함께 살 수 있을까?"**에 대한 중요한 단서를 줍니다.

현재 상태: AI 는 글로 된 규칙을 읽으면 아주 똑똑하게 행동할 수 있습니다. 하지만 실제 상황 (그림이나 영상) 을 보고 즉각적인 판단을 내릴 때는 아직 인간처럼 완벽하지 않습니다.
미래 전망: GPT-4o 나 Qwen 같은 모델이 발전하면, 로봇이 우리가 사는 사회의 '눈치'를 보고 행동할 수 있게 될 것입니다.
- 예를 들어, 로봇이 엘리베이터에서 노약자에게 자리를 양보하거나, 누군가 쓰레기를 버리는 것을 보고 "그건 안 돼요"라고 말해줄 수 있게 되는 거죠.

🚀 결론

이 논문은 **"AI 가 인간의 사회적 규칙을 배우는 과정"**을 평가한 것입니다. 결과는 **"글은 잘 읽지만, 그림을 볼 때는 아직 조금 더 연습이 필요하다"**는 것입니다. 하지만 GPT-4o 같은 최신 모델이 그 가능성을 보여주고 있어, 앞으로는 로봇이 우리 사회의 예절을 지키는 '착한 이웃'이 될 날이 머지않았음을 시사합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 다중 에이전트 시스템 (MAS) 과 규범적 다중 에이전트 시스템 (NorMAS) 에서 에이전트는 사회적 규범 (norms) 을 이해하고 준수 여부를 판단하며 제재를 가하는 능력이 필요합니다.
기존 연구의 한계:
- 기존 NorMAS 연구는 주로 형식 논리 (deontic logic) 와 같은 기호적 (symbolic) 접근법을 사용하여 규범을 표현하고 추론합니다.
- 이러한 방법은 단순화된 환경에 국한되며, 실제 복잡한 사회적 상황에서 확장성 (scalability) 과 적응성 (adaptability) 이 부족합니다. 또한, 자연어 규범을 논리식으로 수동으로 인코딩해야 하는 번거로움이 있습니다.
새로운 기회와 격차:
- 대규모 언어 모델 (LLM) 과 다중 모달 LLM (MLLM) 은 복잡한 텍스트 및 시각적 맥락을 이해하여 규범을 추론할 수 있는 잠재력을 가지고 있습니다.
- 그러나 기존 연구는 주로 텍스트 기반 시나리오에 국한되어 있었으며, 이미지 (시각적 입력) 를 포함한 규범 추론 능력에 대한 체계적인 평가는 이루어지지 않았습니다.
연구 목표: 다양한 MLLM 이 텍스트와 이미지를 기반으로 사회적 규범 (준수, 위반, 제재, 메타규범 등) 을 얼마나 정확하게 추론할 수 있는지 평가하고, 이를 인간 평가 결과와 비교하여 로봇 및 사회적 에이전트에 적용 가능한지 검증하는 것.

2. 방법론 (Methodology)

연구는 5 가지 주요 MLLM 을 대상으로 텍스트와 이미지 두 가지 모달리티에서 규범 추론 능력을 평가하는 프레임워크를 구축했습니다.

평가 대상 모델 (5 개):
1. GPT-4o
2. Gemini 2.0 Flash
3. Qwen-2.5VL (72B)
4. Intern-VL3 (14B)
5. Meta LLaMa-4 Maverick
데이터셋 구성:
- 5 가지 규범 시나리오: 문 앞 노크하기, 공원 쓰레기 버리지 않기, 줄서기, 시간 엄수하기, 노약자 자리 양보하기.
- 6 가지 변형 (Variants): 각 시나리오마다 규범 준수/위반 여부와 그에 따른 결과 (칭찬, 제재, 메타 제재 등) 를 다르게 설정한 6 가지 변형 (V1~V5) 을 생성.
  - V1/V2: 준수 (무칭찬/칭찬)
  - V3/V4a/V4b: 위반 (제재 없음/가벼운 조언/격렬한 꾸중)
  - V5: 메타규범 (위반자를 제재하지 않은 방관자까지 제재)
- 총 데이터: 텍스트 기반 스토리 30 개 (5 규범 × 6 변형) 및 이를 기반으로 생성된 4 컷 만화 형태의 이미지 30 개.
평가 프로세스:
- 질문 세트: 각 스토리/이미지에 대해 8 가지 질문을 제시 (규범 식별, 주체 식별, 준수/위반 여부, 칭찬/제재 여부, 메타 제재 여부 등).
- Ground Truth 설정: 논문 저자 2 명과 외부 평가자 2 명이 합의하여 정답을 도출 (Cohen's Kappa 점수 0.90 이상으로 평가자 간 일치도 매우 높음).
- 모델 평가: MLLM 에게 스토리/이미지를 입력하고 8 가지 질문에 답변하게 한 후, 정답과 비교하여 정확도 (Accuracy) 계산.

3. 주요 기여 (Key Contributions)

다중 모달 규범 추론 평가 프레임워크 도입: 기존 텍스트 중심 연구를 넘어, 로봇이 실제 환경에서 시각적 단서를 통해 규범을 이해해야 하는 상황을 모델링하기 위해 텍스트와 이미지를 모두 포함한 체계적인 평가 기준을 제시했습니다.
MLLM 의 규범 추론 능력 심층 분석: 단순한 준수/위반 분류를 넘어, 칭찬, 제재, 그리고 복잡한 메타규범 (Meta-norms, 규범 위반을 제재하지 않은 자에 대한 제재) 에 대한 추론 능력을 정량적으로 평가했습니다.
모델 간 성능 비교 및 통계적 검증: 5 가지 최첨단 MLLM 의 성능을 비교하고, 텍스트 vs 이미지, 규범 유형별 성능 차이에 대한 통계적 유의성 (t-test, Friedman test 등) 을 입증했습니다.

4. 주요 결과 (Results)

모달리티별 성능 차이:
- 모든 모델이 텍스트 기반 추론에서 이미지 기반 추론보다 유의미하게 높은 성능을 보였습니다.
- 통계적 분석 (Paired t-test): 텍스트 평균 정확도 (M=0.95) vs 이미지 평균 정확도 (M=0.84), $p < 0.001$ .
- 이는 현재 MLLM 이 사회적 맥락에 대한 시각적 이해보다 텍스트 추론 능력이 더 우세함을 시사합니다.
모델별 성능:
- GPT-4o: 텍스트 (98.75%), 이미지 (92.5%) 모두에서 가장 높은 정확도를 기록하며 가장 우수한 성능을 보였습니다.
- Qwen-2.5VL: 무료 모델 중 가장 우수하며, GPT-4o 다음으로 높은 성능을 보였습니다.
- Meta LLaMa-4 Maverick: 모든 모델 중 가장 낮은 성능을 보였습니다 (텍스트 92%, 이미지 76.66%).
규범 유형별 난이도:
- 단순 규범 vs 복잡 규범: 모델은 단순한 규범 준수/위반 (Category 1, 2) 을 잘 처리했으나, 메타규범 (Category 3, V5 변형) 추론에서는 성능이 크게 저하되었습니다 (중앙값 정확도 75%).
- 시나리오별: '쓰레기 버리지 않기'와 '문 노크하기' 시나리오에서 가장 잘 수행되었고, '자리 양보하기'와 '줄서기'는 상대적으로 어려웠습니다.
질문별 난이도:
- 이미지 분석 시, 장면의 진행 상황 이해 (Q3, Q5) 및 칭찬 행동 식별 (V2 변형) 에서 오류가 빈번했습니다.
- 메타규범 관련 질문 (Q8) 은 V5 변형에서 대부분의 모델이 실패했습니다.

5. 의의 및 결론 (Significance & Conclusion)

사회적 지능 에이전트 개발의 기초: 이 연구는 MLLM 이 사회적 규범을 이해하고 준수 여부를 판단할 수 있는 '기초 구성 요소'로서의 가능성을 입증했습니다. 특히 GPT-4o 와 Qwen-2.5VL 은 사회적 로봇이나 모바일 앱과 같은 에이전트에 통합되어 규범 위반을 감지하고 제재하는 데 활용될 수 있음을 시사합니다.
현실적 한계와 향후 과제:
- 현재 모델은 복잡한 메타규범 추론이나 시각적 맥락 (만화 형식의 이미지 등) 이해에 한계가 있어, 실제 인간 - 로봇 상호작용 (HRI) 에 적용하기 위해서는 추가적인 연구가 필요합니다.
- 향후 연구 방향으로는 비디오 (동영상) 분석, 파인튜닝 및 RAG(검색 증강 생성) 를 통한 도메인 특화, Tree-of-Thought 와 같은 고급 추론 전략 적용, 그리고 실제 물리적 에이전트 (로봇) 를 통한 현장 평가 등이 제안되었습니다.
결론: MLLM 은 텍스트 기반 규범 추론에서 매우 유망한 성능을 보이지만, 이미지 기반 추론과 복잡한 사회적 규범 (메타규범) 처리 능력은 아직 발전이 필요합니다. 본 연구는 이러한 차이를 정량화하고, 사회적 규범을 이해하는 지능형 에이전트 개발을 위한 중요한 벤치마크를 제공합니다.

Social Norm Reasoning in Multimodal Language Models: An Evaluation

🧠 핵심 주제: AI 의 '사회적 감수성' 시험

🎭 실험 방법: 5 명의 학생과 30 개의 이야기

📊 실험 결과: "글은 잘 읽는데, 그림은 헷갈려!"

💡 이 연구가 우리에게 주는 의미

🚀 결론

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 주요 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

A Temporal-Spectral Fusion Transformer with Subject-Specific Adapter for Enhancing RSVP-BCI Decoding

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

Dance of the ADS: Orchestrating Failures through Historically-Informed Scenario Fuzzing

Multi-agent Assessment with QoS Enhancement for HD Map Updates in a Vehicular Network