Vision Language Models Cannot Reason About Physical Transformation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"비전-언어 모델 (VLM)"**이라고 불리는 최신 AI 들이 물리적인 세계를 얼마나 잘 이해하는지, 특히 **"변화 속에서도 변하지 않는 것"**을 알 수 있는지 테스트한 연구입니다.

간단히 말해, **"AI 는 물리 법칙을 진짜로 이해하는가?"**에 대한 답은 **"아니요, 전혀 이해하지 못합니다"**입니다.

이 복잡한 연구를 일상적인 비유로 쉽게 설명해 드릴게요.

1. 핵심 실험: "피아제의 잔"과 AI

과거 심리학자 피아제는 아이들에게 물리 실험을 시켰습니다.

실험: 넓은 그릇에 담긴 물을 좁고 긴 잔에 부으면, 물의 양은 변하지 않습니다. (물론 넓어졌지만 높이가 낮아졌죠.)
아이들의 반응: 어릴 때는 "물이 줄었다!"라고 말하지만, 성장하면 "아, 모양만 변했을 뿐 양은 똑같아!"라고 깨닫습니다. 이를 '보존 (Conservation)' 능력이라고 합니다.

이 연구팀은 이 실험을 AI 에게 시켰습니다.

과제: 동영상을 보여주며 "이 Coins(동전) 의 개수가 변했나요?", "이 물의 양이 변했나요?", "이 점토의 크기가 변했나요?"라고 물었습니다.
결과: AI 들은 동전 개수가 변하지 않았는데도 "변했다"고 하거나, 반대로 실제로 양이 변했는데도 "변하지 않았다"고 엉뚱한 답을 했습니다.

2. AI 가 왜 실패했을까? (가장 재미있는 부분)

AI 가 물리 법칙을 몰라서 실패한 것이 아닙니다. 오히려 너무나도 인간적인 (하지만 틀린) 습관 때문에 실패했습니다.

비유: "눈이 멀고 귀만 쓰는 학생"

AI 는 두 가지 모드를 가지고 있습니다.

눈 (시각): 동영상의 변화를 봅니다.
귀 (텍스트): 질문의 문맥을 듣습니다.

연구팀은 AI 의 눈을 가리고 (흰 화면만 보여줌) 귀만 쓰게 했더니, AI 는 놀랍게도 정답을 맞췄습니다!

이유: AI 는 질문을 할 때 "보존 (Conservation)"이라는 단어가 나오면, **"아, 보통은 양이 변하지 않는 경우가 많지"**라는 **문맥적 편견 (Textual Prior)**을 가지고 있습니다. 그래서 눈이 없어도 "아니요, 변하지 않았어요"라고 추측하는 것이 맞을 확률이 높았습니다.

하지만 문제는 시각 정보입니다.

실제 동영상을 보여주자 AI 는 그 '문맥적 편견'을 버리고 눈에 보이는 것에 휘둘렸습니다.
비유: AI 는 "아, 물이 잔에 담기니 높이가 줄었네? 그럼 양이 줄었겠지!"라고 눈에 보이는 모양만 보고 물리 법칙을 무시해버린 것입니다.
결론: AI 는 시각 정보를 처리하는 능력이 너무 약해서, 오히려 정답일 확률이 높은 '문맥적 추측'을 버리고 틀린 시각적 단서에 넘어간 것입니다.

3. 더 많은 정보를 주면 나아질까? (시간, 프롬프트, 샘플링)

연구팀은 AI 가 실패한 이유를 찾기 위해 여러 가지 방법을 시도했습니다.

더 많은 프레임 (시간 정보): 동영상을 3 장에서 16 장까지 더 많이 보여줬습니다.
- 결과: 소용없었습니다. AI 는 시간이 흐르는 과정을 연결해서 "아, 이건 변하지 않았구나"라고 생각하지 못했습니다.
더 좋은 질문 (프롬프트): "단계별로 생각해보자", "연속적인 과정으로 봐라"라고 지시했습니다.
- 결과: 더 나빠졌습니다. AI 가 복잡한 설명을 하려고 애쓰다가 오히려 헷갈려서 틀렸습니다.
더 좋은 프레임 추출: 사람이 중요하다고 생각하는 장면을 골라주었습니다.
- 결과: 소용없었습니다. AI 는 어떤 장면을 보여줘도 물리 법칙을 이해하지 못했습니다.

4. 모델이 커지면 해결될까?

AI 모델의 크기를 10 억 개 파라미터에서 760 억 개까지 키웠습니다.

결과: 크기와 상관없이 똑같이 실패했습니다.
비유: 지능이 높은 천재 학생이라도, 물리 법칙을 이해하는 '근본적인 사고방식'을 배우지 않으면, 아무리 머리가 좋아도 같은 실수를 반복합니다. AI 는 단순히 데이터를 많이 외운 것이지, 물리 세계를 '이해'한 것이 아닙니다.

5. 요약: AI 에게 무엇을 기대해야 할까?

이 논문은 우리에게 중요한 메시지를 줍니다.

"AI 는 동영상을 보고 '무엇이 일어났는지'는 말할 수 있지만, '왜 일어났는지'나 '무엇이 변하지 않았는지'를 물리적으로 추론하는 능력은 아직 없습니다."

현재 상태: AI 는 마치 모양만 보고 판단하는 아이처럼, 물이 잔에 담기면 양이 줄었다고 착각합니다.
미래 과제: 로봇이 물건을 다루거나, 자율주행차가 복잡한 도로 상황을 이해하려면, AI 는 시간의 흐름 속에서 변하지 않는 물리 법칙을 '진짜로' 이해해야 합니다.

한 줄 요약:

AI 는 "눈"이 너무 약해서, "머리"로 추측하는 것보다 더 쉽게 속아 넘어가고 있습니다. 아직은 물리 법칙을 이해할 준비가 안 된 상태입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 최근 시각 - 언어 모델 (VLMs) 은 지각, 추론, 시각적 상식 이해 능력에서 괄목할 만한 발전을 이루었으며, embodied AI(로봇 등) 분야에 적용될 잠재력을 보이고 있습니다.
문제: 그러나 VLM 이 동적 환경에서 **물리적 변환 (Physical Transformations)**을 진정으로 이해하고 추론할 수 있는지는 불분명합니다. 특히 피아제 (Piaget) 의 인지 발달 이론에서 핵심으로 여겨지는 '보존 (Conservation)' 개념, 즉 외형이 변하더라도 물리량 (수, 길이, 부피, 크기) 이 불변임을 이해하는 능력이 VLM 에게 있는지 검증된 바가 부족합니다.
핵심 질문: VLM 은 동적인 장면에서 시각적 증거를 통합하여 물리량이 변환 과정에서 불변임을 추론할 수 있는가? 아니면 단순한 언어적 편향이나 휴리스틱에 의존하고 있는가?

2. 방법론 (Methodology)

2.1. 벤치마크: ConservationBench

연구진은 VLM 의 물리적 변환 추론 능력을 평가하기 위해 ConservationBench라는 새로운 벤치마크를 제안했습니다.

구성: 4 가지 물리량 (Number, Length, Volume, Size) 을 대상으로 한 192 개의 비디오 기반 작업과 이에 대응하는 192 개의 비보존 (Non-conserving) 제어 작업으로 구성됩니다.
- 보존 작업 (Conserving): 외형은 변하지만 물리량은 일정하게 유지되는 상황 (예: 물의 부피는 같지만 모양이 다른 잔에 따르는 경우).
- 비보존 제어 작업 (Non-conserving Control): 외형은 동일하게 유지되지만 실제 물리량이 변하는 상황 (예: 물의 양이 줄어드는 경우). 이는 모델이 단순히 "불변"이라고 답하는 편향을 피하기 위해 설계되었습니다.
데이터 규모: 총 112 개의 VLM 을 평가하기 위해 23,040 개의 질문 (384 개 비디오 × 60 가지 조건) 을 생성했습니다.
변수 통제:
- 프레임 수 (Temporal Resolution): 3, 5, 7, 9, 16 프레임 등 시간 해상도를 다양화하여 동적 정보 통합 능력을 테스트.
- 샘플링 전략: 균일 샘플링 (Uniform), 인간 기반 (Human-based), 모델 기반 (Model-based/SEViLA) 프레임 추출 방법 비교.
- 프롬프트 전략: 직접 질문, 순차적 처리, 연쇄 사고 (CoT), 연속적 과정 강조 등 다양한 프롬프트 적용.

2.2. 실험 설계

평가 대상: 112 개의 다양한 아키텍처와 파라미터 규모 (1B~76B) 를 가진 VLM (상용 및 오픈소스 포함).
제어 실험:
- Empty Image Control: 시각 입력을 흰색 이미지로 대체하여 텍스트 편향만 존재하는지 확인.
- Text Control: 시각 입력을 완전히 제거하고 텍스트 프롬프트만 제공.
평가 지표: 정답률 (Accuracy) 과 엄격한 쌍대 평가 (Strict Pairwise Evaluation: 보존과 비보존 작업을 모두 정확히 맞춘 경우만 정답으로 간주).

3. 주요 결과 (Key Results)

3.1. 체계적인 실패 (Systematic Failure)

성능: 112 개 모델 중 대부분의 모델이 보존 작업에서 33.3%(무작위 추측) 수준인 20~69% 의 정확도를 보였습니다. 인간은 98.35% 의 정확도를 기록하여 큰 격차가 존재함을 확인했습니다.
역상관 관계: 보존 작업에서 성능이 좋은 모델일수록 비보존 제어 작업에서는 성능이 떨어지는 **음의 상관관계 (r = -0.510)**가 관찰되었습니다. 이는 모델이 실제 변환을 추론하는 것이 아니라, "물리량은 불변이다"라는 **기본적인 휴리스틱 (편향)**에 의존하고 있음을 시사합니다.

3.2. 텍스트 편향과 시각적 간섭

텍스트 편향: 시각 입력이 없는 조건 (Empty Image, Text Control) 에서 모델들은 "보존 (불변)"이라고 답하는 경향이 매우 강했습니다 (약 70~85%). 이는 언어적 사전 지식 (Prior) 이 물리량 불변을 지지한다는 것을 의미합니다.
시각적 간섭: 흥미롭게도, 실제 시각 콘텐츠가 포함된 조건에서는 오히려 성능이 떨어졌습니다. 모델은 올바른 텍스트 편향을 가지고 있음에도 불구하고, 시각 정보를 처리하는 과정에서 오류를 범하여 잘못된 결론을 내렸습니다. 이는 시각적 변환 추론 능력의 부재를 강력하게 시사합니다.

3.3. 개선 시도 무효

시간 해상도: 프레임 수를 늘리거나 (3 프레임에서 16 프레임까지), 더 많은 정보를 제공해도 성능은 유의미하게 향상되지 않았습니다.
프롬프트 및 샘플링: CoT(Chain-of-Thought) 프롬프트나 인간이 선정한 핵심 프레임을 사용해도 성능 개선이 없었으며, 오히려 CoT 는 일부 작업에서 성능을 저하시켰습니다.

3.4. 스케일링 법칙의 부재

모델의 파라미터 규모 (1B~76B) 가 커질수록 보존 추론 능력은 거의 증가하지 않았습니다 ( $R^2 = 0.019$ ). 반면, 비보존 제어 작업에서는 약간의 성능 향상이 있었으나, 이는 단순한 편향 강화일 뿐 진정한 추론 능력의 발현이 아니었습니다.

4. 주요 기여 (Key Contributions)

ConservationBench 도입: VLM 의 물리적 변환 추론 능력을 평가하기 위한 최초의 인지과학 기반 벤치마크를 제안했습니다. 이는 단순한 객체 인식이나 정적 장면 이해를 넘어, 동적 과정에서의 불변성 추론을 검증합니다.
VLM 의 근본적 한계 규명: 현재 VLM 이 동적 환경에서 물리량을 추적하고 변환 불변성을 유지하는 능력이 결여되어 있음을 체계적으로 증명했습니다.
편향과 추론의 분리: 모델이 시각적 증거를 처리하지 못하고 언어적 편향 (물리량은 불변함) 에 의존하며, 오히려 시각 정보가 이 편향을 방해한다는 점을 발견했습니다.
스케일링 법칙의 한계 지적: 모델 크기를 키우는 것만으로는 물리적 추론 능력이 자연스럽게 발현 (Emergence) 되지 않음을 보여주었습니다.

5. 의의 및 시사점 (Significance)

Embodied AI 의 장벽: 로봇 조작, 물리적 상호작용 등 현실 세계의 동적 환경에서 작동해야 하는 AI 시스템에 있어, VLM 의 물리적 이해 부재는 치명적인 약점입니다.
향후 연구 방향: 단순히 데이터 양을 늘리거나 모델을 크게 만드는 접근법으로는 물리적 추론 문제를 해결할 수 없음을 시사합니다. **시간적 일관성 (Temporal Consistency)**을 유지하고, **변환 불변 표현 (Transformation-invariant Representations)**을 학습할 수 있는 새로운 아키텍처나 학습 방법론이 필요합니다.
진단 도구: 본 벤치마크는 향후 기초 모델 (Foundation Models) 이 고수준 물리적 추론을 달성했는지 여부를 검증하는 '샌티니 체크 (Sanity Check)'로 활용될 수 있습니다.

결론

이 논문은 현재 가장先进的인 시각 - 언어 모델조차도 피아제가 지적한 '보존' 개념과 같은 기본적인 물리적 추론을 수행하지 못하며, 이는 단순한 데이터 부족이 아니라 시각적 변환을 처리하는 구조적 결함에서 기인함을 증명했습니다. 이는 AI 가 진정한 물리적 세계를 이해하기 위해서는 단순한 패턴 인식을 넘어선 근본적인 변화가 필요함을 경고합니다.