Vision Language Models Cannot Reason About Physical Transformation

이 논문은 비전 언어 모델 (VLM) 이 물리적 변환 하에서 물리량의 불변성을 유지하는 보존 개념을 이해하지 못하며, 시각적 입력이 오히려 성능을 저하시키고 텍스트적 선입견에 의존한다는 것을 23,040 개의 질문으로 구성된 ConservationBench 를 통해 입증했습니다.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"비전-언어 모델 (VLM)"**이라고 불리는 최신 AI 들이 물리적인 세계를 얼마나 잘 이해하는지, 특히 **"변화 속에서도 변하지 않는 것"**을 알 수 있는지 테스트한 연구입니다.

간단히 말해, **"AI 는 물리 법칙을 진짜로 이해하는가?"**에 대한 답은 **"아니요, 전혀 이해하지 못합니다"**입니다.

이 복잡한 연구를 일상적인 비유로 쉽게 설명해 드릴게요.


1. 핵심 실험: "피아제의 잔"과 AI

과거 심리학자 피아제는 아이들에게 물리 실험을 시켰습니다.

  • 실험: 넓은 그릇에 담긴 물을 좁고 긴 잔에 부으면, 물의 양은 변하지 않습니다. (물론 넓어졌지만 높이가 낮아졌죠.)
  • 아이들의 반응: 어릴 때는 "물이 줄었다!"라고 말하지만, 성장하면 "아, 모양만 변했을 뿐 양은 똑같아!"라고 깨닫습니다. 이를 '보존 (Conservation)' 능력이라고 합니다.

이 연구팀은 이 실험을 AI 에게 시켰습니다.

  • 과제: 동영상을 보여주며 "이 Coins(동전) 의 개수가 변했나요?", "이 물의 양이 변했나요?", "이 점토의 크기가 변했나요?"라고 물었습니다.
  • 결과: AI 들은 동전 개수가 변하지 않았는데도 "변했다"고 하거나, 반대로 실제로 양이 변했는데도 "변하지 않았다"고 엉뚱한 답을 했습니다.

2. AI 가 왜 실패했을까? (가장 재미있는 부분)

AI 가 물리 법칙을 몰라서 실패한 것이 아닙니다. 오히려 너무나도 인간적인 (하지만 틀린) 습관 때문에 실패했습니다.

비유: "눈이 멀고 귀만 쓰는 학생"

AI 는 두 가지 모드를 가지고 있습니다.

  1. 눈 (시각): 동영상의 변화를 봅니다.
  2. 귀 (텍스트): 질문의 문맥을 듣습니다.

연구팀은 AI 의 눈을 가리고 (흰 화면만 보여줌) 귀만 쓰게 했더니, AI 는 놀랍게도 정답을 맞췄습니다!

  • 이유: AI 는 질문을 할 때 "보존 (Conservation)"이라는 단어가 나오면, **"아, 보통은 양이 변하지 않는 경우가 많지"**라는 **문맥적 편견 (Textual Prior)**을 가지고 있습니다. 그래서 눈이 없어도 "아니요, 변하지 않았어요"라고 추측하는 것이 맞을 확률이 높았습니다.

하지만 문제는 시각 정보입니다.

  • 실제 동영상을 보여주자 AI 는 그 '문맥적 편견'을 버리고 눈에 보이는 것에 휘둘렸습니다.
  • 비유: AI 는 "아, 물이 잔에 담기니 높이가 줄었네? 그럼 양이 줄었겠지!"라고 눈에 보이는 모양만 보고 물리 법칙을 무시해버린 것입니다.
  • 결론: AI 는 시각 정보를 처리하는 능력이 너무 약해서, 오히려 정답일 확률이 높은 '문맥적 추측'을 버리고 틀린 시각적 단서에 넘어간 것입니다.

3. 더 많은 정보를 주면 나아질까? (시간, 프롬프트, 샘플링)

연구팀은 AI 가 실패한 이유를 찾기 위해 여러 가지 방법을 시도했습니다.

  • 더 많은 프레임 (시간 정보): 동영상을 3 장에서 16 장까지 더 많이 보여줬습니다.
    • 결과: 소용없었습니다. AI 는 시간이 흐르는 과정을 연결해서 "아, 이건 변하지 않았구나"라고 생각하지 못했습니다.
  • 더 좋은 질문 (프롬프트): "단계별로 생각해보자", "연속적인 과정으로 봐라"라고 지시했습니다.
    • 결과: 더 나빠졌습니다. AI 가 복잡한 설명을 하려고 애쓰다가 오히려 헷갈려서 틀렸습니다.
  • 더 좋은 프레임 추출: 사람이 중요하다고 생각하는 장면을 골라주었습니다.
    • 결과: 소용없었습니다. AI 는 어떤 장면을 보여줘도 물리 법칙을 이해하지 못했습니다.

4. 모델이 커지면 해결될까?

AI 모델의 크기를 10 억 개 파라미터에서 760 억 개까지 키웠습니다.

  • 결과: 크기와 상관없이 똑같이 실패했습니다.
  • 비유: 지능이 높은 천재 학생이라도, 물리 법칙을 이해하는 '근본적인 사고방식'을 배우지 않으면, 아무리 머리가 좋아도 같은 실수를 반복합니다. AI 는 단순히 데이터를 많이 외운 것이지, 물리 세계를 '이해'한 것이 아닙니다.

5. 요약: AI 에게 무엇을 기대해야 할까?

이 논문은 우리에게 중요한 메시지를 줍니다.

"AI 는 동영상을 보고 '무엇이 일어났는지'는 말할 수 있지만, '왜 일어났는지'나 '무엇이 변하지 않았는지'를 물리적으로 추론하는 능력은 아직 없습니다."

  • 현재 상태: AI 는 마치 모양만 보고 판단하는 아이처럼, 물이 잔에 담기면 양이 줄었다고 착각합니다.
  • 미래 과제: 로봇이 물건을 다루거나, 자율주행차가 복잡한 도로 상황을 이해하려면, AI 는 시간의 흐름 속에서 변하지 않는 물리 법칙을 '진짜로' 이해해야 합니다.

한 줄 요약:

AI 는 "눈"이 너무 약해서, "머리"로 추측하는 것보다 더 쉽게 속아 넘어가고 있습니다. 아직은 물리 법칙을 이해할 준비가 안 된 상태입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →