HOCA-Bench: Beyond Semantic Perception to Predictive World Modeling via Hegelian Ontological-Causal Anomalies

이 논문은 헤겔의 존재론적·인과론적 이상 현상을 기반으로 한 HOCA-Bench 를 통해, 현재 비디오-LLM 들이 정적인 객체 인식에는 어느 정도 성공하지만 물리 법칙에 기반한 인과적 예측에는 여전히 심각한 인지적 격차가 있음을 입증했습니다.

Chang Liu, Yunfan Ye, Qingyang Zhou, Xichen Tan, Mengxuan Luo, Zhenyu Qiu, Wei Peng, Zhiping Cai

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 제목: HOCA-Bench (호카 벤치) - AI 의 '세상 이해 능력'을 시험하는 새로운 시험지

1. 문제 제기: "AI 는 영화배우일까, 물리학자일까?"

지금까지 개발된 비디오 AI(Video-LLM) 들은 영화를 보면 **"누가, 무엇을, 하고 있는가?"**를 아주 잘 설명합니다. 예를 들어, "개가 공을 쫓고 있다"라고 정확히 말해줍니다.

하지만 진짜 지능은 **"왜 그렇게 되는가?"**와 **"다음에 무슨 일이 일어날까?"**를 예측하는 데 있습니다.

  • 현재의 AI: "공이 날아가서 벽에 부딪혔다." (관찰은 잘함)
  • 진짜 지능: "공이 벽에 부딪혀 튕겨 나왔다. 만약 벽이 없다면 공은 계속 날아갔을 것이다." (물리 법칙을 이해하고 예측함)

이 논문은 AI 들이 **'관찰자'**는 될지 몰라도, 아직 **'물리 법칙을 이해하는 예측자'**는 못 된다고 지적합니다.

2. 해결책: 헤겔의 철학으로 만든 '새로운 시험지'

저자들은 AI 의 실수를 분석하기 위해 19 세기 철학자 헤겔의 사고방식을 빌려왔습니다. 마치 의사가 환자를 진단할 때 '증상'만 보는 게 아니라 '근본 원인'을 찾듯이, AI 의 실수를 두 가지로 나누었습니다.

  • 타입 A: 존재의 붕괴 (Ontological Anomalies)
    • 비유: "고양이에게 갑자기 3 개의 머리가 달렸다"거나 "의자가 갑자기 책상이 됐다"는 상황입니다.
    • 의미: 사물 자체의 정의가 무너진 경우입니다. AI 는 "아, 고양이 머리가 3 개네"라고 눈으로만 보고 알아챕니다. (이건 비교적 쉽습니다.)
  • 타입 B: 인과 관계의 붕괴 (Causal Anomalies)
    • 비유: "커피를 따르는데 컵 안의 커피 양이 줄어들지 않는다"거나 "공을 던졌는데 중력을 무시하고 위로 날아간다"는 상황입니다.
    • 의미: 사물 사이의 관계와 법칙이 깨진 경우입니다. AI 는 "아, 커피가 안 줄어들네?"라고 말하지만, **"왜 안 줄어들어야 하는지 (질량 보존 법칙)"**를 이해하지 못합니다. (이건 매우 어렵습니다.)

3. 실험 방법: "AI 가 만든 엉터리 영상"으로 AI 를 테스트하다

실제 세상은 물리 법칙을 지키기 때문에, AI 가 물리 법칙을 어기는 영상을 찾기 어렵습니다. 그래서 저자들은 최신 생성형 AI(영상 만드는 AI) 들을 '악역'으로 활용했습니다.

  • 전략: "가장 똑똑한 영상 AI 들에게 '물리 법칙을 무시하는 엉터리 영상을 만들어줘'라고 시켰습니다."
  • 결과: AI 가 만든 엉터리 영상 (예: 컵에서 커피가 새어 나오는데 양은 그대로) 을 모아서, 다른 AI 들에게 "이게 현실일 수 있니?"라고 물어봤습니다.
  • 데이터: 총 1,439 개의 영상과 3,470 개의 질문으로 구성된 거대한 시험지 HOCA-Bench를 만들었습니다.

4. 충격적인 결과: "생각하는 AI"도 물리 법칙은 못 푼다

17 개의 최신 AI 모델을 시험지에 풀어보게 했더니, 놀라운 결과가 나왔습니다.

  • 시각적 실수는 잘 잡는다: "고양이 머리가 3 개야!" 같은 존재의 붕괴는 거의 다 맞췄습니다. (점수 80~90 점)

  • 물리 법칙은 무지하다: "커피가 새는데 양이 안 줄어든다" 같은 인과 관계의 붕괴는 대부분 틀렸습니다. (점수 20~40 점)

    • 비유: AI 는 "그림이 이상하네"는 걸 알지만, "왜 이상한지"에 대한 이론을 모릅니다. 마치 외계인이 지구에 와서 "저건 왜 저렇게 움직이지?"라고 물었을 때, "저게 저렇게 움직이는 게 이상해"라고만 답하고, "중력이 작용해야 하는데 작용 안 해서 이상한 거야"라고 설명하지 못하는 것과 같습니다.
  • 생각 모드 (System 2) 의 한계: 최근 AI 들은 "생각하는 시간"을 갖는 모드가 있습니다. 하지만 이 모드에서도 물리 법칙을 이해하는 능력은 크게 향상되지 않았습니다. 패턴을 맞추는 능력은 뛰어나지만, 물리 법칙을 적용하는 능력은 여전히 부족하다는 뜻입니다.

5. 결론: AI 는 아직 '세상의 법칙'을 배우는 중

이 논문은 우리에게 중요한 메시지를 줍니다.

"AI 가 영상을 아주 잘 설명한다고 해서, 그 AI 가 세상의 이치 (물리 법칙) 를 이해하는 것은 아닙니다. 아직 AI 는 세상의 규칙을 외운 학생일 뿐, 규칙을 이해하고 예측하는 천재가 아닙니다."

HOCA-Bench는 앞으로 AI 가 단순한 '영상 설명기'를 넘어, 진짜 **예측 가능한 세상을 이해하는 지능 (Physical Intelligence)**으로 성장할 수 있도록 돕는 나침반이 될 것입니다.


📝 한 줄 요약

"AI 는 '무엇이' 일어나는지 말해주기는 잘하지만, '왜' 일어나고 '다음에' 무슨 일이 일어날지 물리 법칙으로 예측하는 능력은 아직 초보 수준입니다. 이 논문은 그 차이를 철학적으로 분석하고 측정하는 새로운 기준을 제시합니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →