Vision-language models lag human performance on physical dynamics and intent reasoning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이나 AI 가 사람을 도와주려면, 단순히 사물을 보는 것을 넘어 '왜' 그 행동을 하는지 이해해야 한다"**는 중요한 메시지를 전달합니다.

비유하자면, 현재의 AI 는 **"사진을 보고 사물의 이름과 위치를 정확히 말해주는 '탁월한 사진관'"**이지만, **"사람의 의도를 읽고 미래의 상황을 예측하는 '현명한 파트너'"**가 되지는 못한다는 이야기입니다.

이 내용을 일상적인 언어와 비유로 쉽게 설명해 드릴게요.

지금까지의 AI 는 물체가 '어디에' 있고 '무엇'인지 아는 데는 매우 뛰어납니다. 하지만 물체가 움직일 때 '왜' 움직이는지, 그리고 사람이 그 물체를 어떻게 사용할지를 예측하는 데는 여전히 서툴러요.

비유: AI 는 "저기 컵이 있네, 그 옆에 사람이 있네"라고 말할 수는 있지만, **"그 사람이 컵을 들면 물을 마시려고 하겠지, 그러니 컵이 앞으로 움직일 거야"**라고 추론하는 데는 실패합니다.
논문 용어: 이를 '텔레오 - 공간 지능 (Teleo-Spatial Intelligence)' 부족이라고 합니다. '텔레오 (Teleo)'는 '목적'을 뜻하는 그리스어에서 왔습니다. 즉, 공간적인 움직임 뒤에 숨겨진 '목적 (의도)'을 이해하는 능력이 부족하다는 뜻입니다.

연구팀은 AI 의 이 약점을 테스트하기 위해 실제 세상에서 찍은 1 만 3 천 개가 넘는 비디오를 분석한 거대한 시험지인 **'에셔버스'**를 만들었습니다.

비유: 기존 시험지는 "이 사각형은 몇 변인가요?" 같은 정적인 수학 문제였다면, 에셔버스는 "저 사람이 공을 잡으면 어디로 갈까요?", "이 지팡이가 짧아지면 넘어질까요?" 같은 생생한 상황극 문제입니다.
문제 예시:
- "사람이 컵을 마시려고 한다면, 컵은 어디로 이동할까요?"
- "남자가 공을 잡은 후, 붉은 모자를 쓴 남자를 보고 반대 방향으로 첫 걸음을 떼나요?"

연구팀은 최신 AI 27 개를 이 시험지에 풀어보게 했고, 일반인 11 명도 같은 문제를 풀게 했습니다. 결과는 매우 명확했습니다.

인간: 문제를 한 번만 보고도 **약 90%**를 맞췄습니다. (사람은 본능적으로 "아, 저 사람은 물을 마시려고 하네"라고 직관적으로 이해합니다.)
최고의 AI: 가장 똑똑한 AI(Gemini-2.5-Pro) 는 57% 정도만 맞췄습니다.
비유: 마치 수학 천재가 '수학 문제'는 다 풀지만, '실제 생활의 상황극'에서는 엉뚱한 답을 내놓는 꼴입니다. AI 는 물체의 기하학적 모양은 잘 보지만, 사람의 의도와 물리 법칙이 섞인 복잡한 상황에서는 여전히 혼란을 겪습니다.

연구팀은 AI 에게 실제 세상에서 찍은 비디오와 "사람의 의도"를 설명하는 데이터를 더 많이 주며 훈련시켰습니다.

결과: AI 의 실력은 상당히 좋아졌습니다. 하지만 여전히 인간 수준에는 미치지 못했습니다.
비유: AI 에게 "실제 상황극"을 수천 번 보게 했더니, 연기를 잘하게 되었지만 아직도 '배우'의 영혼 (직관과 깊은 이해) 을 완전히 얻지는 못했습니다.

이 연구는 AI 가 우리 일상 (자율주행, 로봇 청소기, 공장 로봇 등) 에서 안전하게 일하려면, 단순히 사물을 인식하는 것을 넘어 **"사람이 무엇을 하려는지"**를 이해해야 한다고 경고합니다.

이 논문은 **"AI 는 이제 눈 (시각) 은 떴지만, 마음 (의도 이해) 은 아직 닫혀 있다"**고 말합니다. AI 가 진짜로 인간과 함께 살아가는 세상을 위해, 단순한 '지식'이 아닌 '이해'와 '예측' 능력을 키우는 것이 가장 시급한 과제라고 강조합니다.

유사한 논문