WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

이 논문은 시각, 청각, 텍스트 입력을 동시에 평가하는 최초의 옴니모달 비디오 이해 벤치마크인 'WorldSense'를 소개하고, 이를 통해 기존 최첨단 모델들이 현실 세계 시나리오 이해에 여전히 큰 한계를 가지고 있음을 규명합니다.

Jack Hong, Shilin Yan, Jiayin Cai, Xiaolong Jiang, Yao Hu, Weidi Xie

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌍 월드센스 (WorldSense): AI 가 '실제 세상'을 얼마나 잘 이해하는지 테스트하는 새로운 시험지

이 논문은 인공지능 (AI) 이 책이나 영화처럼 **시각 (영상), 청각 (소리), 언어 (텍스트)**를 모두 합쳐서 현실 세계를 얼마나 잘 이해하는지 측정하는 새로운 기준을 제시합니다. 이를 **'월드센스 (WorldSense)'**라고 부릅니다.

기존의 AI 테스트들은 주로 "이 그림이 뭐야?"라고 묻는 식이었는데, 월드센스는 **"이 장면을 보고 소리를 듣고, 지금 무슨 일이 일어나고 있는지 설명해 줘"**라고 묻는 훨씬 더 복잡하고 현실적인 시험입니다.


🎬 1. 왜 이 시험이 필요한가요? (비유: 운전면허 시험)

생각해 보세요. 우리가 차를 운전할 때 무엇을 하나요?

  • 눈 (시각): 신호등이 빨간지, 차가 오는지 봅니다.
  • 귀 (청각): 사이렌 소리나 경적 소리를 듣습니다.
  • 손/발 (촉각): 핸들의 진동이나 브레이크의 반응을 느낍니다.

이 모든 정보를 한순간에 합쳐서 "아, 저기 구급차가 오니까 길을 비켜야겠다"라고 판단합니다.

하지만 현재 대부분의 AI 는 눈만 뜨고 있는 상태입니다. 소리는 무시하거나, 소리가 있어도 그 의미를 제대로 연결하지 못합니다. 마치 귀를 막고 운전면허 시험을 보는 것과 비슷하죠. 그래서 AI 가 소리를 듣고 상황을 파악하는 능력을 제대로 평가할 수 있는 '월드센스'라는 새로운 시험지가 필요했던 것입니다.

📝 2. 월드센스 시험지는 어떤가요?

이 시험지는 다음과 같은 특징을 가지고 있습니다:

  • 다양한 상황 (8 개 분야, 67 가지 세부 주제):
    일상생활, 영화, 스포츠, 음악, 과학 등 현실 세계의 다양한 상황을 담고 있습니다.
    • 예시: "이 남자가 손에 든 과일이 어떤 크기인지 보여주고 있나요?"라는 질문에서, 영상만 보면 그냥 과일을 들고 있는 것뿐이지만, 소리를 들어야 "파란색 딸기 (블루베리) 의 크기를 보여주고 있다"는 것을 알 수 있습니다.
  • 정교한 문제 (3,172 개의 질문):
    단순히 "무슨 소리야?"가 아니라, "이 음악이 어떤 감정을 표현하고 있고, 그 배경에서 무슨 일이 벌어지고 있을까?"처럼 소리와 영상을 연결해서 추론해야 하는 문제들입니다.
  • 엄격한 채점 (전문가 80 명):
    모든 문제는 전문가들이 직접 만들고, 여러 번 검수하여 AI 가 헷갈리지 않도록 정교하게 만들었습니다.

📉 3. AI 들의 시험 결과는 어땠나요? (현실적인 충격)

저자들은 최신 AI 모델들 (오픈소스 모델부터 구글, 오픈AI 의 최신 모델까지) 을 이 시험에 풀어보게 했습니다. 결과는 다소 충격적이었습니다.

  • 오픈소스 모델들: 대부분의 오픈소스 AI 는 무작위 추측 (랜덤) 수준의 점수만 받았습니다. 소리와 영상을 동시에 처리할 수 있다고 하지만, 실제로는 두 정보를 잘 섞어내지 못했습니다.
  • 최고급 상용 모델 (Gemini 2.5 Pro 등): 가장 잘한 모델도 **정답률 65.1%**에 그쳤습니다. 인간이라면 쉽게 이해할 수 있는 상황에서도 AI 는 여전히 실수를 많이 합니다.
  • 가장 큰 문제: 소리가 없는 상태 (영상만) 와 소리가 있는 상태 (영상 + 소리) 를 비교했을 때, AI 는 소리를 추가해도 점수가 크게 오르지 않거나, 오히려 소리가 방해가 되어 점수가 떨어지기도 했습니다. 이는 AI 가 소리와 영상을 진짜로 '연결'하지 못하고 따로따로 처리하고 있다는 뜻입니다.

🔍 4. 왜 AI 는 소리를 못 알아듣나요? (실패 원인 분석)

연구진은 AI 가 왜 실패했는지 분석했습니다.

  1. 귀가 먹먹함 (음성 이해 부족): AI 는 눈으로 보는 것 (영상) 은 잘 알아도, 소리의 뉘앙스 (감정, 리듬, 배경음) 를 이해하는 데 매우 서툴렀습니다.
  2. 정보의 분리: 소리와 영상을 따로따로 보고, 마지막에 억지로 합치는 방식이라서, "이 소리가 이 장면에서 왜 나는지" 같은 **맥락 (Context)**을 놓칩니다.
  3. 추론 능력 부족: 소리와 영상을 다 알아도, 이를 바탕으로 "아, 저 사람은 지금 기분이 슬프구나"라고 추론하는 단계에서 막힙니다.

🚀 5. 앞으로의 전망: AI 가 진짜 '현실'을 이해하려면?

이 연구는 AI 개발자들에게 중요한 메시지를 줍니다.

  • 소리와 영상을 함께 배우게 하라: 소리와 영상을 따로 학습하는 게 아니라, 서로 밀접하게 연결된 데이터로 함께 가르쳐야 합니다.
  • 깊은 연결 고리 만들기: 소리가 영상 속 어떤 장면과 어떻게 연결되는지 이해하는 '뇌' 구조를 바꿔야 합니다.
  • 추론 능력 키우기: 단순히 "무슨 소리야?"를 넘어, "왜 그 소리가 나고, 그 소리가 어떤 의미를 갖는지"를 생각하게 해야 합니다.

💡 요약

월드센스는 AI 에게 **"너는 책만 읽는 게 아니라, 소리와 영상을 보고 현실 세계를 제대로 이해할 수 있니?"**라고 묻는 새로운 시험지입니다.

현재 AI 들은 이 시험에서 아직 초보 운전수 수준입니다. 소리를 무시하거나, 소리와 영상을 제대로 연결하지 못해 엉뚱한 답을 내놓습니다. 하지만 이 시험지를 통해 AI 가 소리와 영상을 자연스럽게 융합하여 진짜 인간처럼 세상을 이해하는 단계로 나아가는 중요한 발판이 될 것입니다.