Learning to Generate Rigid Body Interactions with Video Diffusion Models

이 논문은 단일 이미지와 물체 속도 정보를 기반으로 현실적인 강체 상호작용을 생성할 수 있도록 마스크 기반의 2 단계 학습 전략과 저수준 운동 제어 및 고수준 텍스트 조건을 통합한 새로운 비디오 생성 모델 'KineMask'를 제안합니다.

David Romero, Ariana Bermudez, Viacheslav Iablochnikov, Hao Li, Fabio Pizzati, Ivan Laptev

게시일 2026-03-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"KineMask(키네마스크)"**라는 새로운 기술을 소개합니다. 쉽게 말해, **"영상을 만드는 인공지능 (AI) 이 물리 법칙을 제대로 이해하도록 가르치는 방법"**입니다.

기존의 AI 영상 생성 기술은 그림을 그리는 데는 훌륭하지만, 물체가 움직일 때의 '현실감'이 떨어졌습니다. 예를 들어, 컵이 다른 컵에 부딪히면 튕겨 나가야 하는데, AI 는 마치 유령처럼 컵이 통과해 가거나, 부딪혔는데도 아무 일도 없는 것처럼 만들곤 했습니다.

이 문제를 해결하기 위해 연구팀이 개발한 KineMask의 원리를 일상적인 비유로 설명해 드릴게요.


🎬 1. 문제: "마법 같은 영상" vs "현실적인 영상"

기존 AI 는 마치 마법사처럼 작동합니다. "이 컵이 오른쪽으로 가"라고 하면 컵이 오른쪽으로 이동합니다. 하지만 물리 법칙을 모릅니다.

  • 현실: 공을 벽에 던지면 튕겨 나옵니다.
  • 기존 AI: 공이 벽을 뚫고 지나가거나, 벽에 닿자마자 사라지거나, 벽을 밀고 가버립니다.

이런 AI 를 로봇이나 시뮬레이션에 쓰려면 안 됩니다. 로봇이 물건을 들 때 물리 법칙을 모르면 물건을 떨어뜨리거나 부술 테니까요.

🛠️ 2. 해결책: KineMask (키네마스크) 의 두 가지 비법

연구팀은 AI 에게 물리 법칙을 가르치기 위해 두 가지 단계로 훈련을 시켰습니다.

① 첫 번째 비법: "초고속 운전 면허" (1 단계 훈련)

AI 에게 완벽한 시뮬레이션 데이터를 보여줍니다.

  • 비유: 마치 운전 학원에서 강사가 차를 완벽하게 조종하며 "이렇게 핸들을 돌리면 차가 이렇게 돌아갑니다"라고 가르치는 것과 같습니다.
  • 방법: 컴퓨터로 만든 가상의 장면 (블렌더) 에서 물체들이 부딪히는 영상을 만들고, **"어떤 속도로, 어느 방향으로 움직였는지"**를 AI 에게 정밀하게 가르칩니다. 이때 AI 는 물체가 어떻게 움직여야 하는지 완벽하게 기억합니다.

② 두 번째 비법: "운전 시험" (2 단계 훈련)

이제 AI 가 스스로 판단하게 합니다.

  • 비유: 학원을 졸업한 학생이 실제 도로에 나가는 것입니다. 강사는 처음 몇 초만 "이쪽으로 가"라고 알려주고, 그 뒤는 스스로 부딪히고 튕겨 나가는 상황을 예측하게 합니다.
  • 방법: AI 가 처음 프레임 (시작 화면) 에서 물체의 속도만 알려주면, 나머지 영상은 AI 가 스스로 만들어내야 합니다. AI 는 "아, 이 물체가 저 물체에 부딪히면 저렇게 튕겨 나가겠구나"라고 **인과관계 (원인과 결과)**를 스스로 학습하게 됩니다.

🎨 3. 추가 기능: "나레이션"과 "지시"의 조화

KineMask 는 두 가지 정보를 동시에 사용합니다.

  1. 저수준 제어 (손가락으로 가리키기): 사용자가 "이 컵을 오른쪽으로 밀어"라고 화살표로 지시하면, AI 는 그 방향과 속도를 정확히 따릅니다.
  2. 고수준 지시 (나레이션): AI 는 "컵이 부딪히면 깨져야 해"나 "물이 튀어야 해"라는 텍스트 설명도 함께 읽습니다.
    • 비유: 감독이 배우에게 "이제 오른쪽으로 달려가서 (지시), 벽에 부딪혀서 넘어져라 (나레이션)"라고 말하는 것과 같습니다. 덕분에 AI 는 컵이 깨지거나 물이 튀는 복잡한 현상까지 자연스럽게 만들어냅니다.

🌟 4. 왜 이것이 중요한가요? (결과)

이 기술을 적용한 AI 는 다음과 같은 놀라운 능력을 갖게 되었습니다.

  • 현실적인 충돌: 컵이 다른 컵에 부딪히면 튕겨 나가고, 무거운 물체는 가볍게 움직입니다.
  • 복잡한 효과: 컵이 떨어지면 깨지고, 물이 튀고, 연기가 피어오르는 등 부수적인 효과까지 자연스럽게 표현합니다.
  • 일반화: 컴퓨터로 만든 가상의 장면에서 배운 지식을 실제 사진 (실제 커피잔, 장난감 등) 에 적용해도 잘 작동합니다.

💡 요약

KineMask는 AI 에게 **"물리 법칙"**이라는 무언가를 주입한 것입니다.
기존의 AI 가 마법으로 영상을 만들었다면, KineMask 는 물리학자처럼 영상을 만듭니다.

  • 기존 AI: "컵이 벽을 통과했어? 어, 그래. (현실 무시)"
  • KineMask: "컵이 벽에 부딪혔으니 튕겨 나가야지. 그리고 깨지면 조각이 날아가야 해. (물리 법칙 준수)"

이 기술은 앞으로 로봇이 물건을 다루는 법을 배우거나, 영화 제작자가 현실적인 특수효과를 쉽게 만들거나, 자율주행차가 사고 상황을 예측하는 데 큰 도움을 줄 것으로 기대됩니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →