Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models

이 논문은 카메라 시선, 가림막, 조명 제어 등을 통해 관찰 여부와 관계없이 상태가 진화하는지 평가하는 벤치마크 'STEVO-Bench'를 제안하여, 현재 비디오 월드 모델이 관찰과 상태 변화를 분리하는 데 한계가 있음을 규명합니다.

Ziqi Ma, Mengzhan Liufu, Georgia Gkioxari

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

"보이지 않으면 생각도 안 나?" 비디오 세계 모델의 숨겨진 약점 찾기

이 논문은 최근 화제가 되는 **'비디오 세계 모델 (Video World Models)'**이라는 인공지능의 진짜 실력을 시험하는 흥미로운 실험을 소개합니다.

간단히 말해, **"인공지능이 화면에서 사라진 물체의 상태 변화도 제대로 기억하고 예측할 수 있을까?"**를 묻는 연구입니다.


1. 핵심 질문: "눈에 안 보이면, 멈추는 걸까?"

우리가 살아가는 세상은 우리가 보고 있든, 눈을 감고 있든, 혹은 커튼 뒤에 숨어 있든 계속해서 변합니다.

  • 컵에 물을 붓고 커튼을 치고 10 분 뒤, 물을 다시 보면 컵은 여전히 차 있습니다.
  • 불을 끄고 방을 나가면, 방 안의 시계는 계속 돌아가고 있습니다.

하지만 이 논문은 **"현재의 AI 비디오 생성 모델들은 이런 '보이지 않는 동안의 변화'를 제대로 이해하지 못한다"**고 지적합니다. AI 는 화면에 물체가 안 보이면, 마치 그 물체가 존재하지 않거나 상태가 멈춘 것처럼 만들어버립니다.

2. 실험 도구: 'StEvo-Bench' (시각적 기억력 테스트)

연구진은 이 문제를 찾기 위해 **'StEvo-Bench'**라는 새로운 시험지를 만들었습니다. 이 시험지는 AI 에게 다음과 같은 미션을 줍니다.

  1. 시작: "물이 컵에 차오르는 장면"을 보여줍니다.
  2. 장애물 (Obscuration): "이제 커튼을 치거나, 카메라를 돌려 물이 보이지 않게 해라"라고 지시합니다.
  3. 복귀: "다시 커튼을 치거나 카메라를 돌려 물이 보이게 해라"라고 합니다.
  4. 판단: "물이 계속 찼을까, 아니면 멈췄을까?"

이것은 마치 아이에게 장난감을 보여주고 커튼으로 가린 뒤, "장난감이 어디로 갔을까?"라고 물어보는 것과 비슷합니다. 아이는 장난감이 커튼 뒤에서도 계속 움직일 수 있다는 것을 알지만, AI 는 "보이지 않으니까 멈췄다"고 생각하는 경향이 있습니다.

3. 주요 발견: AI 가 저지르는 실수들

이 시험지를 통해 AI 모델들이 겪는 두 가지 큰 문제를 발견했습니다.

① "보이지 않으면 멈춰버려요" (Evolution Stopping)

  • 상황: 공기 침대를 펴고 불을 끄거나 커튼을 쳤습니다.
  • AI 의 반응: 커튼을 치는 순간, 공기 침대의 바람 빠지는 과정이 갑자기 멈춥니다. 다시 커튼을 열면, 바람이 빠진 상태가 아니라 아까 그 자리에 그대로 멈춰 있습니다.
  • 비유: 요리사가 냄비를 덮고 잠시 자리를 비웠는데, 덮개를 열었을 때 냄비 안의 국물이 끓지 않고 얼어있는 것처럼 보이는 상황입니다.

② "무엇이 변했는지 기억 못 해요" (Incoherence)

  • 상황: 스펀지가 물에 젖어 모양이 변하는 장면을 보여주고 커튼을 쳤습니다.
  • AI 의 반응: 커튼을 열었을 때, 스펀지가 물에 젖어 둥글게 변해있어야 하는데, 갑자기 네모난 스펀지로 바뀌거나 아예 다른 물건이 되어 있습니다.
  • 비유: 친구가 커튼 뒤에서 옷을 갈아입고 나왔는데, 커튼을 열었을 때 그 친구가 아닌 전혀 다른 사람이 나와 있는 것과 같습니다.

4. 카메라를 움직여도 똑같은 문제

카메라를 직접 조종할 수 있는 더 똑똑한 AI 모델들도 이 문제를 피하지 못했습니다.

  • 시나리오: "카메라를 오른쪽으로 돌려 공이 떨어지는 걸 안 보이게 해라."
  • 결과: 카메라가 돌아간 동안 공이 떨어지는 게 아니라, 카메라가 돌아갈 때 공이 공중에 멈춰 있거나, 아예 카메라가 움직이지 않고 정지해 버립니다.
  • 원인: 이 AI 들은 훈련 데이터를 볼 때, 카메라가 움직이는 장면은 주로 '정지된 배경'을 보여주는 경우가 많았기 때문에, **"카메라가 움직이면 세상은 멈춰야 한다"**는 잘못된 습관을 들인 것입니다.

5. 결론: AI 는 '픽셀 (화소)'만 보고 있을 뿐

이 논문의 결론은 매우 명확합니다.
현재의 AI 비디오 모델들은 세상의 물리 법칙이나 인과관계를 이해하는 '세계 모델 (World Model)'이 아니라, 단순히 화면의 픽셀을 이어 붙이는 '영상 편집기'에 가깝습니다.

  • 우리의 기대: AI 가 세상의 법칙을 이해해서, 보이지 않아도 물이 차오르고, 불이 타오르고, 시계가 돌아갈 것이라고 예측하는 것.
  • 현실: AI 는 "보이지 않으면, 그 순간은 존재하지 않는 것"으로 처리해버립니다.

6. 이 연구가 왜 중요할까요?

이 연구는 AI 가 단순히 "예쁜 영상을 만드는 것"을 넘어, 실제 로봇이나 자율주행차처럼 '보이지 않는 상황'에서도 안전하게 판단하고 행동할 수 있는 진정한 인공지능으로 발전하기 위해 무엇을 고쳐야 하는지 보여줍니다.

마치 눈을 감고도 길을 찾을 수 있는 능력이 필요한 것처럼, AI 도 화면에서 사라진 물체의 상태를 기억하고 예측할 수 있어야만 진정한 '세계의 이해자'가 될 수 있다는 메시지를 전달합니다.