HOCA-Bench: Beyond Semantic Perception to Predictive World Modeling via Hegelian Ontological-Causal Anomalies

Each language version is independently generated for its own context, not a direct translation.

🎬 제목: HOCA-Bench (호카 벤치) - AI 의 '세상 이해 능력'을 시험하는 새로운 시험지

1. 문제 제기: "AI 는 영화배우일까, 물리학자일까?"

지금까지 개발된 비디오 AI(Video-LLM) 들은 영화를 보면 **"누가, 무엇을, 하고 있는가?"**를 아주 잘 설명합니다. 예를 들어, "개가 공을 쫓고 있다"라고 정확히 말해줍니다.

하지만 진짜 지능은 **"왜 그렇게 되는가?"**와 **"다음에 무슨 일이 일어날까?"**를 예측하는 데 있습니다.

현재의 AI: "공이 날아가서 벽에 부딪혔다." (관찰은 잘함)
진짜 지능: "공이 벽에 부딪혀 튕겨 나왔다. 만약 벽이 없다면 공은 계속 날아갔을 것이다." (물리 법칙을 이해하고 예측함)

이 논문은 AI 들이 **'관찰자'**는 될지 몰라도, 아직 **'물리 법칙을 이해하는 예측자'**는 못 된다고 지적합니다.

2. 해결책: 헤겔의 철학으로 만든 '새로운 시험지'

저자들은 AI 의 실수를 분석하기 위해 19 세기 철학자 헤겔의 사고방식을 빌려왔습니다. 마치 의사가 환자를 진단할 때 '증상'만 보는 게 아니라 '근본 원인'을 찾듯이, AI 의 실수를 두 가지로 나누었습니다.

타입 A: 존재의 붕괴 (Ontological Anomalies)
- 비유: "고양이에게 갑자기 3 개의 머리가 달렸다"거나 "의자가 갑자기 책상이 됐다"는 상황입니다.
- 의미: 사물 자체의 정의가 무너진 경우입니다. AI 는 "아, 고양이 머리가 3 개네"라고 눈으로만 보고 알아챕니다. (이건 비교적 쉽습니다.)
타입 B: 인과 관계의 붕괴 (Causal Anomalies)
- 비유: "커피를 따르는데 컵 안의 커피 양이 줄어들지 않는다"거나 "공을 던졌는데 중력을 무시하고 위로 날아간다"는 상황입니다.
- 의미: 사물 사이의 관계와 법칙이 깨진 경우입니다. AI 는 "아, 커피가 안 줄어들네?"라고 말하지만, **"왜 안 줄어들어야 하는지 (질량 보존 법칙)"**를 이해하지 못합니다. (이건 매우 어렵습니다.)

3. 실험 방법: "AI 가 만든 엉터리 영상"으로 AI 를 테스트하다

실제 세상은 물리 법칙을 지키기 때문에, AI 가 물리 법칙을 어기는 영상을 찾기 어렵습니다. 그래서 저자들은 최신 생성형 AI(영상 만드는 AI) 들을 '악역'으로 활용했습니다.

전략: "가장 똑똑한 영상 AI 들에게 '물리 법칙을 무시하는 엉터리 영상을 만들어줘'라고 시켰습니다."
결과: AI 가 만든 엉터리 영상 (예: 컵에서 커피가 새어 나오는데 양은 그대로) 을 모아서, 다른 AI 들에게 "이게 현실일 수 있니?"라고 물어봤습니다.
데이터: 총 1,439 개의 영상과 3,470 개의 질문으로 구성된 거대한 시험지 HOCA-Bench를 만들었습니다.

4. 충격적인 결과: "생각하는 AI"도 물리 법칙은 못 푼다

17 개의 최신 AI 모델을 시험지에 풀어보게 했더니, 놀라운 결과가 나왔습니다.

시각적 실수는 잘 잡는다: "고양이 머리가 3 개야!" 같은 존재의 붕괴는 거의 다 맞췄습니다. (점수 80~90 점)
물리 법칙은 무지하다: "커피가 새는데 양이 안 줄어든다" 같은 인과 관계의 붕괴는 대부분 틀렸습니다. (점수 20~40 점)
- 비유: AI 는 "그림이 이상하네"는 걸 알지만, "왜 이상한지"에 대한 이론을 모릅니다. 마치 외계인이 지구에 와서 "저건 왜 저렇게 움직이지?"라고 물었을 때, "저게 저렇게 움직이는 게 이상해"라고만 답하고, "중력이 작용해야 하는데 작용 안 해서 이상한 거야"라고 설명하지 못하는 것과 같습니다.
생각 모드 (System 2) 의 한계: 최근 AI 들은 "생각하는 시간"을 갖는 모드가 있습니다. 하지만 이 모드에서도 물리 법칙을 이해하는 능력은 크게 향상되지 않았습니다. 패턴을 맞추는 능력은 뛰어나지만, 물리 법칙을 적용하는 능력은 여전히 부족하다는 뜻입니다.

5. 결론: AI 는 아직 '세상의 법칙'을 배우는 중

이 논문은 우리에게 중요한 메시지를 줍니다.

"AI 가 영상을 아주 잘 설명한다고 해서, 그 AI 가 세상의 이치 (물리 법칙) 를 이해하는 것은 아닙니다. 아직 AI 는 세상의 규칙을 외운 학생일 뿐, 규칙을 이해하고 예측하는 천재가 아닙니다."

HOCA-Bench는 앞으로 AI 가 단순한 '영상 설명기'를 넘어, 진짜 **예측 가능한 세상을 이해하는 지능 (Physical Intelligence)**으로 성장할 수 있도록 돕는 나침반이 될 것입니다.

📝 한 줄 요약

"AI 는 '무엇이' 일어나는지 말해주기는 잘하지만, '왜' 일어나고 '다음에' 무슨 일이 일어날지 물리 법칙으로 예측하는 능력은 아직 초보 수준입니다. 이 논문은 그 차이를 철학적으로 분석하고 측정하는 새로운 기준을 제시합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 비디오 대형 언어 모델 (Video-LLMs) 은 시맨틱 인식 (누가 무엇을 하고 있는지에 대한 설명) 분야에서 괄목할 만한 발전을 이루었습니다. 그러나 **물리적으로 기반을 둔 지능 (Physically Grounded Intelligence)**의 핵심인 예측적 세계 모델링 (Predictive World Modeling) 능력, 즉 "왜 그런 일이 발생하는가"와 "어떻게 전개될 것인가"를 물리적 상식과 인과관계에 기반하여 설명하는 능력에서는 여전히 한계를 보입니다.

기존 벤치마크들은 대부분 객체 인식이나 행동 추적과 같은 시맨틱 인식에 치중되어 있으며, 물리 법칙 위반 (예: 중력 무시, 질량 보존 법칙 위반) 을 체계적으로 평가하는 프레임워크가 부족합니다. 또한, 실제 세계의 영상은 물리 법칙을 따르므로 모델의 실패 사례를 포착하기 어렵다는 데이터적 한계가 존재합니다.

2. 방법론 (Methodology)

2.1. 철학적 프레임워크: 헤겔의 변증법 적용

저자들은 물리적 오류를 단순한 실수가 아닌 논리적 실패로 정의하기 위해 **헤겔의 논리학 (Hegelian Logic)**을 도입했습니다. 이를 통해 물리적 이상 현상 (Anomalies) 을 두 가지 계층으로 구분합니다.

존재론적 이상 (Ontological Anomalies - Being): 사물의 정의나 지속성 (Existence) 이 붕괴되는 경우.
- 예: 모양이 변하는 것 (Morphing), 사라지거나 나타나는 것 (Object Permanence), 생물학적 불가능 (예: 3 개의 머리를 가진 양).
- 이는 객체 자체의 정의 (Class definition) 에 대한 오류로 간주됩니다.
인과론적 이상 (Causal Anomalies - Essence): 사물 간의 상호작용 논리 (Interaction Logic) 가 붕괴되는 경우.
- 예: 중력 위반 (위로 떨어지는 물체), 마찰력 무시, 충돌 시 관통 (Clipping), 열역학 법칙 위반.
- 이는 유효한 객체들 간의 상호작용 규칙 (Physics method) 이 잘못 실행되는 경우로 간주됩니다.

2.2. 데이터 구축: 적대적 시뮬레이터 활용

실제 영상은 물리 법칙을 따르므로, **최신 생성형 비디오 모델 (Generative Video Models)**을 '적대적 시뮬레이터 (Adversarial Simulators)'로 활용하여 물리 법칙을 위반하는 합성 영상을 대량으로 생성했습니다.

데이터 소스: Wan 2.1, HunyuanVideo, Sora, Kling 등 15 개 이상의 최신 생성 모델에서 생성된 809 개의 합성 영상과 실제 세계 영상 (Panda-70M) 630 개를 포함합니다.
전체 규모: 총 1,439 개의 비디오, 3,470 개의 질문 - 답변 (QA) 쌍.
주석 과정: VLM(비디오 - 언어 모델) 을 이용한 자동 캡션 생성 $\rightarrow$ LLM 을 통한 물리 논리 요약 $\rightarrow$ 헤겔 분류 체계 매핑 $\rightarrow$ 인간 전문가 (5 명) 에 의한 엄격한 검증.

2.3. 태스크 설계 (4 단계)

모델의 물리 이해도를 점진적으로 평가하기 위해 4 가지 태스크를 설계했습니다.

타당성 확인 (Plausibility Check): 이 장면이 현실에서 가능한가? (이진 분류)
도메인 분류 (Domain Categorization): 어떤 물리 법칙이 위반되었는가? (9 가지 헤겔 도메인 중 선택)
세부 설명 (Fine-grained Description): 구체적인 물리적 위반 현상을 식별.
반사실 추론 (Counterfactual Reasoning): "정상적인 상황이라면 어떻게 되었을지"를 논리적 체인으로 설명 (개방형).

3. 주요 기여 (Key Contributions)

HOCA-Bench 벤치마크 제안: 예측적 세계 모델링을 평가하기 위해 헤겔의 존재론 (Ontology) 과 본질론 (Essence) 을 기반으로 한 최초의 체계적인 분류 체계를 도입했습니다.
적대적 생성 모델을 활용한 데이터셋 구축: 실제 불가능한 물리 현상을 생성형 AI 로 시뮬레이션하여, 편향되지 않고 논리적 결함을 명확히 드러내는 테스트베드를 구축했습니다.
포괄적인 모델 평가: 17 개의 최신 Video-LLM(밀집형, MoE 아키텍처, System-2 '생각' 모드 포함) 을 평가하여 물리 지능의 현재 한계를 정량화했습니다.

4. 실험 결과 (Results)

4.1. 인지적 후퇴 (Cognitive Lag)

존재론 vs. 인과론: 모든 모델이 **존재론적 이상 (정적 객체의 비현실성)**을 식별하는 데는 상대적으로 능숙했으나, **인과론적 이상 (동적 상호작용 및 물리 법칙)**을 추론하는 데는 심각한 어려움을 겪었습니다.
- 예: 모양이 변하는 것을 감지하는 것은 쉽지만, 중력이나 마찰력 위반을 설명하는 것은 어렵습니다.
- 인과론적 태스크에서 성능이 20% 이상 하락하는 경향이 관찰되었습니다.
System-2 '생각' (Thinking) 모드의 영향: '생각' 모드 (Chain-of-Thought) 를 활성화하면 추론 성능이 향상되지만, 존재론과 인과론 사이의 격차를 완전히 해소하지는 못했습니다. 이는 현재 아키텍처가 시각적 패턴 인식에는 강하지만, 기본 물리 법칙을 적용하는 데는 약함을 시사합니다.

4.2. 모델별 성능

오픈 가중치 모델의 성장: Qwen3-VL-32B 와 같은 최신 오픈 모델이 GPT-4o 나 Gemini-2.5-Flash 와 같은 폐쇄형 최상위 모델보다 높은 점수 (H-Index) 를 기록하며 물리 이해도에서 격차를 좁혔습니다.
스케일링 법칙: 모델 파라미터 수가 증가할수록 물리 추론 능력이 선형적으로 향상되었습니다.
시간적 정밀도 (Temporal Grounding): 모델들이 '무엇'이 일어났는지는 알지만, '언제' 일어났는지 정확히 위치를 특정하는 능력은 여전히 부족했습니다.

5. 의의 및 결론 (Significance)

새로운 평가 기준: HOCA-Bench 는 Video-LLM 이 단순한 패턴 매칭을 넘어, 물리 법칙에 기반한 **진정한 세계 모델 (World Model)**을 구축했는지 평가하는 새로운 표준을 제시합니다.
향후 방향: 현재 모델들은 정적인 객체 인식에는 뛰어나지만, 동적인 물리 상호작용 (인과관계) 을 이해하는 데는 한계가 있음을 명확히 보여줍니다. 이는 차세대 AI 가 진정한 일반 지능 (AGI) 에 도달하기 위해 물리 법칙을 내재화하는 연구가 필수적임을 시사합니다.
철학적 접근의 가치: 헤겔의 철학적 개념을 컴퓨터 비전 벤치마크에 적용함으로써, 물리적 오류를 단순한 '오류'가 아닌 '논리적 붕괴'의 관점에서 구조화하고 분석할 수 있는 새로운 패러다임을 제시했습니다.

이 논문은 비디오 이해 모델이 단순한 시각적 기술자가 아닌, 물리 세계의 법칙을 이해하고 예측할 수 있는 지능체로 발전하기 위해 해결해야 할 핵심 과제를 명확히 규명했습니다.