PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

이 논문은 객체, 속성, 관계, 위치, 행동, 사건 등 다양한 지각 하위 작업과 시공간 추론을 요구하는 복잡한 장기 비디오 추론을 평가하기 위해 100% 수동으로 주석된 새로운 벤치마크 'PerceptionComp'를 소개하고, 현재 최첨단 멀티모달 모델들이 이 벤치마크에서 기존 벤치마크에 비해 현저히 낮은 성능을 보이며 여전히 지각 중심 추론의 병목 현상이 존재함을 입증합니다.

Shaoxuan Li, Zhixuan Zhao, Hanze Deng, Zirun Ma, Shulin Tian, Zuyan Liu, Yushi Hu, Haoning Wu, Yuhao Dong, Benlin Liu, Ziwei Liu, Ranjay Krishna

게시일 2026-03-30
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 테스트 vs. 새로운 테스트: "단순한 퀴즈" vs. "미스터리 수사"

기존의 AI 테스트들은 어때요?
기존 테스트들은 마치 **"한 번만 보면 바로 답이 나오는 쉬운 퀴즈"**와 같습니다.

  • 비유: 친구가 "저기 빨간 차 보이나요?"라고 물으면, AI 는 영상을 한 번 스쳐 지나가도 "네, 빨간 차가 있어요"라고 바로 답합니다.
  • 문제점: AI 가 진짜로 영상을 깊이 이해하고 있는지, 아니면 그냥 표면적인 것만 보고 대충 맞추는 건지 구별하기 어렵습니다.

PerceptionComp 는 어떨까요?
이 새로운 테스트는 **"수사관이 사건을 해결하는 과정"**과 같습니다.

  • 상황: "아파트 열쇠를 떨어뜨리기 직전에, 그 사람이 마지막에 몇 층에 있었나요? (단, 사무실 열쇠가 아닌 아파트 열쇠여야 합니다!)"
  • 요구사항:
    1. 영상 전체를 훑어봐야 합니다.
    2. '사무실 열쇠'와 '아파트 열쇠'를 구분해야 합니다. (구분 능력)
    3. 열쇠를 떨어뜨린 순간을 찾아야 합니다. (시간적 추적)
    4. 그 순간 바로 전까지 그 사람이 어디에 있었는지 기억해야 합니다. (공간적 추론)
    5. 이 모든 정보를 연결해야만 정답을 낼 수 있습니다.
  • 핵심: 한 번만 보면 절대 답을 못 냅니다. 영상을 여러 번 되감아 보고, 조각난 단서들을 맞춰야만 해결됩니다.

2. 왜 이 테스트를 만들었나요? (인간 vs. AI 의 차이)

연구진들은 이 테스트를 만들 때 인간을 기준으로 삼았습니다.

  • 인간의 반응:

    • 영상을 한 번만 보고 답을 내게 하면, 인간도 거의 무작위 추측 수준 (약 19%) 으로 떨어집니다. 너무 복잡해서 기억해 낼 수 없기 때문입니다.
    • 하지만 시간을 주고, 필요하면 영상을 여러 번 되감아 볼 수 있게 하면, 인간은 100% 정답을 맞춥니다.
    • 교훈: 인간은 복잡한 영상을 볼 때, 단서를 모으기 위해 반복적으로 보고 생각합니다.
  • AI 의 반응 (현재 상황):

    • 최신 AI 모델들 (Gemini, GPT-o3 등) 도 이 테스트에서 40~46% 정도만 맞췄습니다.
    • 인간이 100% 를 찍는 반면, AI 는 여전히 40% 대에 머물러 있습니다.
    • 결론: AI 는 영상을 '보는' 능력은 좋지만, 시간이 흐르는 동안 단서를 모으고 연결하는 '추리 능력'이 아직 부족합니다.

3. AI 가 왜 실패할까요? (고통받는 이유)

이 테스트에서 AI 들이 주로 겪는 실패 패턴은 다음과 같습니다.

  1. 단서 놓치기: "노란색 음식 트럭"을 찾아야 하는데, "파란색 트럭"에 집중하다가 길을 잃습니다.
  2. 공간 감각 실수: "오른쪽에 있는 SUV"라고 했는데, AI 는 "왼쪽"을 보거나, 트럭과 SUV 의 위치 관계를 헷갈려 합니다.
  3. 연결 고리 끊어지기: 1 단계에서 대상을 찾았는데, 2 단계로 넘어가면서 "아, 이 대상이 아니었구나" 하고 헷갈려 하거나, 아예 처음부터 잘못된 가정을 하고 논리를 이어갑니다.

비유하자면:
AI 는 기억력이 좋은 학생이지만, 복잡한 미로에서 지도를 보며 길을 찾는 능력이 부족합니다. 한 번에 모든 길을 외우려다 보니, 중간에 길을 잃고 엉뚱한 곳으로 빠져나갑니다.

4. 해결책은 있을까요? (생각할 시간을 더 주면?)

연구진은 AI 에게 **더 많은 계산 시간 (생각할 시간)**과 **더 많은 프레임 (영상의 순간순간)**을 주면 어떨지 실험해 봤습니다.

  • 결과: 생각할 시간을 더 주거나, 더 많은 장면을 보여주면 점수가 조금씩 올라갑니다.
  • 하지만: 여전히 인간 수준 (100%) 에는 훨씬 못 미칩니다.
  • 의미: 단순히 "더 많이 생각하게" 하는 것만으로는 부족하며, 영상의 복잡한 시각적 정보를 반복적으로 확인하고 연결하는 능력 자체가 AI 의 약점이라는 것을 보여줍니다.

5. 요약: 이 연구가 우리에게 주는 메시지

이 논문은 **"PerceptionComp"**라는 새로운 시험지를 통해 다음과 같은 사실을 알려줍니다.

"지금까지의 AI 는 영상을 '보는' 데는 능숙하지만, 긴 시간 동안 흩어진 단서들을 모아 복잡한 사건을 추리하는 능력에서는 아직 인간과 큰 차이가 납니다. 우리는 AI 가 단순히 영상을 재생하는 것을 넘어, 수사관처럼 반복적으로 보고, 연결하고, 추론하는 능력을 키울 수 있도록 이 테스트를 개발했습니다."

이 테스트는 앞으로 더 똑똑한 AI 가 개발될 때, **"진짜로 영상을 이해하는가?"**를 판단하는 중요한 기준이 될 것입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →