SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"SocialOmni"**라는 새로운 시험지를 소개합니다. 이 시험지는 최신 AI(오믹니 모델) 가 사람들과 대화할 때 얼마나 **'자연스럽고 사회적으로 적절한지'**를 평가하는 도구입니다.

기존의 AI 평가는 "이 사진에 뭐가 있나요?", "이 질문의 정답은 무엇인가요?"처럼 정답을 맞추는 능력만 봤습니다. 하지만 실제 대화는 정답만 맞춘다고 해서 좋은 대화가 되는 게 아닙니다.

이 논문을 쉽게 이해하기 위해 한 번의 '생생한 파티 대화' 상황을 상상해 보세요.

🎉 파티에서의 AI: "SocialOmni"가 보는 세 가지 능력

이 논문은 AI 가 파티에서 사람들과 대화할 때 다음 세 가지 핵심 능력을 갖춰야 한다고 말합니다.

1. "누가 말하고 있는 거지?" (Who - 화자 식별)

상황: 파티에서 여러 사람이 동시에 떠들고 있습니다. 왼쪽에 있는 친구가 말하고 있는데, 카메라는 오른쪽에 있는 다른 친구를 비추고 있습니다.
기존 AI: "아, 카메라에 비친 사람이 말하고 있겠지!"라고 착각합니다. (시각에만 의존)
SocialOmni 가 원하는 AI: "아니야, 소리를 들어봐. 목소리는 왼쪽 친구 거야. 카메라는 그냥 다른 사람을 비추고 있을 뿐이지."라고 소리와 영상을 동시에 맞춰서 누가 말하고 있는지 정확히 알아냅니다.
비유: **눈과 귀를 동시에 쓰는 '통찰력'**입니다. 눈이 속여도 귀가 진실을 알려주는 능력이에요.

2. "언제 끼어들어야 하지?" (When - 타이밍 조절)

상황: 친구가 이야기를 하고 있는데, 잠시 숨을 고르는 순간이 옵니다.
기존 AI: "아! 친구가 멈췄다! 내가 지금 말해야지!"라고 너무 일찍 끼어들어 친구의 말을 잘라버립니다. (너무 급함)
SocialOmni 가 원하는 AI: "아직 친구가 말을 다 끝내지 않았어. 잠시 기다렸다가, 친구가 완전히 말을 마치고 고개를 돌릴 때 딱 맞춰서 말해야지."라고 적절한 타이밍을 잡습니다.
비유: 음악의 박자를 타는 능력입니다. 노래가 끝나기 전에 박자를 맞추거나, 너무 늦게 들어가는 게 아니라, 딱 '고무줄'이 끊어지는 순간에 들어가는 센스입니다.

3. "무슨 말을 해야 하지?" (How - 자연스러운 반응)

상황: 친구가 "오늘 너무 힘들어, 가족에게 도움을 요청하기 싫어."라고 슬픈 표정으로 말합니다.
기존 AI: "그럼 다른 해결책을 찾아보세요."라고 차갑고 기계적인 조언을 합니다. (내용은 맞지만 분위기가 안 맞음)
SocialOmni 가 원하는 AI: "그 마음, 정말 이해해. 가족에게 말하기 어려울 때 있잖아."라고 공감하며 자연스럽게 이어갑니다.
비유: 대화의 흐름을 타고 타는 능력입니다. 상대방의 감정과 분위기를 읽고, 그에 맞는 따뜻한 말을 찾아내는 '감성 지능'입니다.

🔍 이 논문이 발견한 놀라운 사실

연구팀은 12 개의 최신 AI 모델을 이 'SocialOmni' 시험지로 시험해 보았습니다. 결과는 매우 흥미로웠습니다.

정답을 잘 맞추는 AI 가 대화도 잘하는 건 아닙니다.
- 어떤 AI 는 "누가 말하고 있나?"를 아주 잘 맞췄지만 (Who: 100 점), "언제 말해야 하나?"를 엉망으로 잡거나 (When: 0 점), "무슨 말을 해야 하나?"를 기계적으로만 했습니다.
- 마치 수학은 천재지만, 사람들과 대화하면 어색해서 말을 더듬는 친구와 같습니다.
시각과 소리가 안 맞을 때 AI 는 당황합니다.
- 카메라는 A 를 비추는데 소리는 B 가 나올 때, 대부분의 AI 는 카메라에 비친 사람 (A) 을 말한 사람으로 착각했습니다. 이는 AI 가 눈과 귀를 따로따로 생각하고 있다는 뜻입니다.
개방형 AI vs 상용 AI
- 구글, 오픈AI 같은 대기업의 AI 는 대화의 타이밍 (When) 과 자연스러움 (How) 에서 더 뛰어났습니다. 반면, 오픈소스 모델들은 정답 맞추기 (Who) 는 잘해도, 대화의 흐름을 타고 가는 데는 아직 부족함이 많았습니다.

💡 결론: 왜 이 연구가 중요한가요?

지금까지 우리는 AI 에게 **"정답을 맞출 수 있는가?"**만 물었습니다. 하지만 앞으로 AI 는 우리와 함께 살아있는 대화를 해야 합니다.

이 논문은 **"AI 가 사람처럼 대화하려면, 정답 맞추기만 잘해서는 안 된다"**고 경고합니다.

누가 말하고 있는지 알아듣고 (Who),
언제 끼어들어야 할지 타이밍을 잡고 (When),
어떻게 말해야 상대방이 기분이 좋은지 (How)

이 세 가지를 모두 갖춘 AI 가 진짜 '사회적인 AI'가 될 수 있다는 것입니다. 이 'SocialOmni'는 바로 그런 AI 를 만들기 위한 나침반 역할을 하게 될 것입니다.

한 줄 요약:

"이제 AI 는 '정답'만 맞추는 시험공부생이 아니라, 파티에서 눈치껏 적재적소에 끼어들어 따뜻한 대화를 나누는 '사회적인 친구'가 되어야 합니다. 이 논문은 그 친구가 될 수 있는지 확인하는 새로운 시험지를 만들었습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

오모 (Omni) 모델은 텍스트, 비전, 오디오를 통합하여 실시간 다중모달 대화를 가능하게 하지만, 기존 벤치마크는 정적인 '정답 중심 (Answer-centric)' 평가에 머물러 있습니다.

현황: 기존 벤치마크 (OmniBench, OmniVideoBench 등) 는 사실적 정확도 (propositional accuracy) 만을 측정하며, 다중 화자 간의 역동적인 대화 흐름을 이해하고 적절히 반응하는 **사회적 상호작용 능력 (Social Interactivity)**을 평가하지 못합니다.
핵심 결함:
- 정답 vs 상호작용: 정답이 맞더라도 대화 타이밍을 잘못 잡거나 (너무 일찍/늦게), 화자를 잘못 인식하거나, 상황에 맞지 않는 말을 하면 사용자 경험이 급격히 저하됩니다.
- 지각과 생성의 불일치: 모델이 화자를 정확히 식별 (지각) 한다고 해서, 그 맥락에서 자연스러운 중단을 생성 (생성) 할 수 있는 것을 보장하지 않습니다.
- 평가의 부재: "누가 (Who)", "언제 (When)", "어떻게 (How)" 대화에 참여할지 결정하는 통합된 평가 체계가 존재하지 않았습니다.

2. 방법론 (Methodology)

저자들은 SocialOmni라는 새로운 벤치마크를 제안하여 오모 모델의 사회적 상호작용 능력을 세 가지 핵심 차원에서 평가합니다.

A. 벤치마크 구성 (Dataset)

규모: 총 2,209 개의 평가 인스턴스.
- 지각 (Perception) 분할: 2,000 개의 다중 선택 질문 (Who).
- 생성 (Generation) 분할: 209 개의 오픈 엔딩 대화 생성 항목 (When & How).
도메인: 엔터테인먼트, 스포츠, 예술, 패션, 비즈니스, 교육, 일상, 건강 등 15 가지 하위 카테고리.
강건성 테스트: 오디오와 비디오가 일치하는 경우 (Consistent) 와 불일치하는 경우 (Inconsistent, 예: 화면에는 A 가 보이지만 목소리는 B) 를 포함하여 모델의 교차 모달 불일치에 대한 강건성을 측정합니다.

B. 평가 태스크 (Task Design)

Who (화자 식별): 특정 시점 $t$ $t$ 에서 누가 말하고 있는지 시각적 단서, 음향 특징, 대화 맥락을 통합하여 식별.
- 지표: Top-1 정확도, Macro-F1.
When (대화 타이밍 제어): 현재 시점에 화자 전환 (Turn-taking) 이 필요한지, 혹은 중단을 해야 하는지 결정.
- 지표: 응답 오프셋 (Response Offset), 타이밍 카테고리 (Interrupted, Perfect, Delayed, TooLate).
How (자연스러운 중단 생성): 대화 맥락에 부합하고 화자의 의도와 흐름을 유지하는 자연스러운 응답 생성.
- 지표: LLM-as-a-Judge (GPT-4o, Gemini, Qwen 등 3 개 모델) 를 통한 점수 (0~100).

C. 평가 프로토콜

이중 축 평가: 지각 (Perception) 과 생성 (Generation) 을 분리하여 평가하되, 타이밍 결정과 응답 품질을 결합하여 분석합니다.
강건성 프로브: 오디오 - 비디오 불일치 시나리오를 통해 모델이 시각적/청각적 단서 중 어느 것에 의존하는지 진단합니다.

3. 주요 기여 (Key Contributions)

새로운 오모 모델 벤치마크 (SocialOmni): Who, When, How 세 축을 통합적으로 평가하는 최초의 벤치마크를 도입했습니다.
이중 축 평가 프로토콜 (Dual-Axis Evaluation): 프레임 수준의 지각 진단과 다중 판정자 (Multi-judge) 생성 점수를 결합하여, 모델의 '이해 능력'과 '상호작용 생성 능력'이 분리되어 있는지 (Decoupling) 분석할 수 있게 했습니다.
강건성 프로브 (Robustness Probes): 오디오와 비디오가 충돌하는 통제된 시나리오를 설계하여, 실제 환경에서의 모델 강건성을 정량화했습니다.

4. 실험 결과 (Results)

12 개의 주요 오모 모델 (GPT-4o, Gemini 시리즈, Qwen3-Omni 등) 을 평가한 결과 다음과 같은 패턴이 발견되었습니다.

성능의 편차 (Variance): 어떤 모델도 세 가지 차원 (Who, When, How) 에서 모두 우월한 성능을 보이지 않았습니다.
- Who: Qwen3-Omni 가 가장 높음 (69.25%).
- When: Gemini 3 Pro Preview 가 가장 높음 (67.31%).
- How: Gemini 2.5 Flash 가 가장 높음 (85.08).
지각과 생성의 분해 (Decoupling):
- 화자 식별 (Who) 이 뛰어난 모델이 반드시 자연스러운 중단 (How) 을 생성하지는 않았습니다. (예: Qwen3-Omni-Thinking 은 Who 는 좋으나 How 점수가 매우 낮음).
- 이는 이해 중심의 지표만으로는 대화의 사회적 능력을 설명할 수 없음을 시사합니다.
상용 vs 오픈소스: 상용 모델 (Gemini, GPT) 이 오픈소스 모델 (Qwen, VITA 등) 보다 전반적으로, 특히 응답 품질 (How) 에서 우위를 보였습니다.
실패 모드 분석:
- 지각 실패: 화면에 가장 잘 보이는 얼굴 (Salient face) 에만 의존하여 실제 화자를 잘못 식별하거나, 오디오 - 비디오 불일치 상황에서 혼란을 겪음.
- 타이밍 실패:
  - 과도한 침입 (Premature interruption): 문법적/의미적 완결이 아닌 짧은 침묵 (Silence gap) 만으로 대화 전환을 잘못 판단.
  - 지연 (Delayed): 대화 창을 놓치고 너무 늦게 응답.
- 생성 실패: 타이밍은 맞았으나, 이전 대화의 감정적 맥락이나 화자의 의도를 무시한 일반적이고 무감정적인 응답 생성.

5. 의의 및 결론 (Significance)

평가 패러다임의 전환: 기존 '정답 맞추기' 중심의 평가에서 벗어나, 실시간 다중모달 대화에서의 사회적 상호작용 능력을 평가하는 새로운 기준을 제시했습니다.
모델 개발 방향성 제시: 단순히 지각 정확도를 높이는 것만으로는 부족하며, **타이밍 제어 (Timing control)**와 **맥락 기반 생성 (Context-aware generation)**을 위한 아키텍처 개선이 필요함을 강조합니다.
향후 연구: 이 벤치마크는 오모 모델이 인간과 자연스럽게 소통하기 위해 필요한 '누가, 언제, 어떻게' 말해야 하는지에 대한 통합적 이해를 위한 필수적인 도구로 작용할 것입니다.

이 논문은 오모 모델이 단순한 정보 처리기를 넘어, 사회적 규범과 타이밍을 이해하는 진정한 대화 파트너가 되기 위해 해결해야 할 과제를 명확히 정의하고 있습니다.