Each language version is independently generated for its own context, not a direct translation.

RealWonder: "만화 속의 물리 법칙"을 실시간으로 구현하는 마법 상자

이 논문은 RealWonder라는 새로운 기술을 소개합니다. 쉽게 말해, **"단순한 사진 하나만 있으면, 그 사진 속 사물이 어떻게 움직일지 물리 법칙을 따라 실시간으로 만들어주는 AI"**입니다.

기존의 영상 생성 AI들은 "비행기가 날아가는 영상"이나 "비가 오는 영상"처럼 정해진 시나리오를 만드는 데는 뛰어나지만, **"이 사각형 상자를 밀어봐"**라고 지시했을 때 상자가 어떻게 넘어지고, 그 뒤의 천이 어떻게 흔들리는지 직접적인 힘과 상호작용을 예측하는 데는 약했습니다.

RealWonder는 이 문제를 해결하기 위해 세 가지 핵심 아이디어를 섞어썼습니다.

1. 핵심 아이디어: "물리 시뮬레이터"라는 번역기

가장 중요한 비유는 **"물리 시뮬레이터 (Physics Simulator) 를 중간 번역기로 쓴다"**는 점입니다.

기존의 문제: AI 는 "3D 힘 (Force)"이나 "로봇 팔의 움직임" 같은 추상적인 숫자 데이터를 직접 이해하지 못합니다. 마치 AI 가 "바람의 세기"라는 개념을 모르고, 오직 "구름이 어떻게 움직이는지"만 본다는 것과 같습니다.
RealWonder 의 해결책:
1. 사용자가 "이 상자를 오른쪽으로 밀어"라고 명령하면, AI 는 바로 영상을 그리지 않습니다.
2. 대신, **물리 시뮬레이터 (가상의 실험실)**로 보냅니다.
3. 시뮬레이터는 "상자가 오른쪽으로 미끄러지고, 바닥과 마찰이 생기며, 뒤의 천이 흔들린다"는 운동의 궤적 (화살표) 과 대략적인 그림을 먼저 그립니다.
4. 이제 AI 는 이 "운동 궤적"을 보고, "아, 물리 법칙에 따라 이렇게 움직이는구나. 그럼 실제 영상은 이렇게 그려야겠다!"라고 고퀄리티 영상을 완성합니다.

비유하자면:
요리사 (AI) 가 "소금 5g 넣고 볶아"라는 지시만으로는 요리를 못 할 수도 있습니다. 하지만 먼저 "소금 5g 을 넣고 볶으면 어떻게 변하는지"를 보여주는 가상 실험 영상을 보여주면, 요리사는 그걸 보고 "아, 이렇게 타지 않게 볶아야구나!"라고 이해하고 맛있는 요리를 만들어냅니다.

2. 시스템의 3 단계 과정 (마법 상자 작동 원리)

RealWonder 는 세 가지 단계로 이루어진 마법 상자 같습니다.

1 단계: 사진 속 3D 세계 만들기 (재구성)

무엇을 하나요? 입력된 평면 사진 (2D) 을 보고, 그 안에 있는 사물들이 3D 로 어떻게 생겼는지, 바닥은 어디인지, 사물은 무엇으로 만들어졌는지 (단단한지, 천인지, 물인지) 추측합니다.
비유: 사진 속의 평면 그림을 보고, "이건 나무로 된 의자야, 저건 부드러운 천이야"라고 상상하며 3D 인형들을 조립하는 작업입니다.

2 단계: 물리 실험실 (시뮬레이션)

무엇을 하나요? 사용자가 지시한 힘 (바람, 로봇 팔, 중력 등) 을 가합니다.
결과: 의자가 넘어지고, 천이 바람에 펄럭이며, 모래가 흩어지는 **운동 궤적 (Flow)**과 **대략적인 그림 (Preview)**을 빠르게 계산합니다.
속도: 이 과정은 매우 빨라 초당 30 회 이상 계산됩니다.

3 단계: 고화질 영상 그리기 (생성)

무엇을 하나요? 2 단계에서 나온 "운동 궤적"과 "대략적인 그림"을 바탕으로, 실제처럼 생생한 영상을 그립니다.
특이점: 보통 AI 는 영상을 그릴 때 50 번 이상 반복해서 수정해야 하지만, RealWonder 는 4 번만 반복해도 실시간으로 영상을 만들어냅니다. (약 13.2 FPS, 즉 초당 13 장 이상의 영상을 실시간으로 보여줌)

3. 왜 이것이 혁신적인가요?

기존 기술들과 비교했을 때 RealWonder 의 장점은 다음과 같습니다.

실시간 상호작용: "바람을 왼쪽에서 불게 해"라고 하면 즉시 왼쪽으로 불어오는 영상을 볼 수 있습니다. 게임처럼 즉각적인 반응이 가능합니다.
다양한 재료: 단단한 상자, 흐르는 물, 펄럭이는 천, 모래, 연기 등 어떤 재료가 되어도 물리 법칙을 따릅니다.
데이터 부족 해결: "로봇이 물건을 잡는 영상" 같은 데이터를 많이 모으지 않아도 됩니다. 대신 **물리 법칙 (시뮬레이션)**을 이용하기 때문에, 데이터가 없어도 논리적으로 맞는 영상을 만들 수 있습니다.

4. 실제 활용 예시

로봇 학습: 로봇이 "이 물건을 어떻게 잡아야 넘어지지 않을까?"를 가상으로 연습할 수 있습니다.
AR/VR: 증강현실 게임에서 사용자가 벽을 밀면, 벽이 실제로 무너지고 주변 사물이 튀는 것을 실시간으로 볼 수 있습니다.
영화/게임 제작: "이 건물이 폭발하면 어떻게 될까?"라는 시나리오를 바로 시각화해 볼 수 있습니다.

요약

RealWonder는 **"물리 법칙을 계산하는 시뮬레이터"**와 **"아름다운 영상을 그리는 AI"**를 손잡게 만든 기술입니다.

기존의 AI 가 "무작위로 멋진 영상을 만들어내는 화가"였다면, RealWonder 는 **"물리 법칙을 이해하고, 사용자의 지시에 따라 현실적으로 움직이는 장난감 상자를 만들어주는 엔지니어"**라고 할 수 있습니다. 이제 우리는 사진 하나만으로, 그 속의 세계가 어떻게 반응할지 실시간으로 실험해 볼 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존의 비디오 생성 모델 (Video Diffusion Models) 은 시각적 패턴을 학습하는 데 뛰어나지만, 3D 물리적 행동과 그 결과 사이의 인과 관계를 이해하는 데 한계가 있습니다.

물리적 행동의 부재: 현재 모델들은 2D 드래그, 카메라 제어나 텍스트 프롬프트에는 반응하지만, 힘 (Force), 토크 (Torque), 로봇 그리퍼 조작과 같은 연속적이고 무한한 3D 물리적 행동을 직접 입력받아 미래의 물리적 결과를 예측하지 못합니다.
데이터 및 토큰화 문제: 물리적 행동 (힘의 크기, 방향, 적용점 등) 은 연속적이고 고차원적이어서 기존 이산적 토큰화 방식에 적합하지 않으며, "행동 - 비디오" 쌍을 대규모로 수집하는 것도 현실적으로 불가능합니다.
실시간성 부족: 물리 기반 시뮬레이션과 비디오 생성을 결합한 기존 방법들은 계산 비용이 높아 실시간 상호작용 (Interactive) 이 어렵습니다.

2. 방법론 (Methodology)

RealWonder는 물리 시뮬레이션을 중간 표현 (Intermediate Representation) 의 다리로 활용하여 물리적 행동과 비디오 생성 모델 사이의 간극을 해소합니다. 시스템은 크게 세 가지 핵심 모듈로 구성됩니다.

A. 단일 이미지 기반 3D 장면 재구성 (3D Scene Reconstruction)

입력된 단일 RGB 이미지를 기반으로 정적 배경과 동적 객체 (강체, 변형체, 유체, 입자 등) 를 3D 포인트 클라우드와 메시 (Mesh) 로 재구성합니다.
재료 특성 추정: 비전 - 언어 모델 (VLM) 을 활용하여 객체의 재질 (강체, 탄성, 천, 연기, 액체, 입자) 을 분류하고 물리 파라미터 (밀도, 마찰 계수, 점성 등) 를 추정합니다.

B. 물리 시뮬레이션을 통한 중간 표현 생성 (Physics Simulation as Bridge)

사용자가 정의한 3D 행동 (외부 힘, 로봇 엔드 이펙터 명령, 카메라 이동) 을 입력받아 물리 엔진 (Genesis) 에서 시뮬레이션을 수행합니다.
시뮬레이션 결과는 비디오 모델이 직접 처리할 수 있는 시각적 신호로 변환됩니다:
1. 광학 흐름 (Optical Flow, $F_t$ ): 3D 속도장을 2D 픽셀 공간으로 투영하여 운동 패턴을 표현.
2. ** coarse RGB 미리보기 ( $\tilde{V}_t$ ):** 포인트 클라우드 래스터화를 통해 가림 (Occlusion) 과 구조적 단서를 제공하는 저해상도 프레임을 생성.
이 과정은 연속적인 물리 행동을 이산적인 픽셀 데이터로 변환하여 토큰화 문제를 우회합니다.

C. 증류된 실시간 비디오 생성기 (Distilled Real-Time Video Generator)

Flow-Conditioned Teacher Model: 사전 학습된 이미지 - 비디오 모델 (Wan2.1 기반) 에 광학 흐름 조건을 추가하기 위해 LoRA 를 활용한 후학습 (Post-training) 을 수행합니다. 흐름 기반 노이즈 왜곡 (Flow-based noise warping) 기법을 사용하여 운동 패턴을 노이즈 구조에 직접 주입합니다.
Causal Distillation (증류): 실시간 스트리밍을 위해 2 단계 (Bidirectional) 모델을 4 단계 (4-step) 인과적 (Causal) 학생 모델로 증류합니다.
- Distribution Matching Distillation (DMD): 학생 모델이 교사 모델의 분포를 따르도록 학습.
- Self-Forcing: 긴 시퀀스 생성 시 발생하는 품질 저하를 방지하기 위해 자동 회귀 (Autoregressive) 방식의 훈련 전략을 적용.
SDEdit 기반 RGB 조건부 생성: 추론 시에는 광학 흐름뿐만 아니라 물리 시뮬레이션에서 생성된 coarse RGB 미리보기를 SDEdit 기법을 통해 4 단계 디노이징 과정에 혼합하여 구조적 일관성을 높입니다.

3. 주요 기여 (Key Contributions)

최초의 실시간 행동 기반 비디오 생성 시스템: 3D 물리적 행동 (힘, 토크, 로봇 동작, 카메라 제어) 을 입력받아 480x832 해상도에서 초당 13.2 프레임 (FPS) 의 속도로 물리적으로 타당한 비디오를 실시간 스트리밍 생성합니다.
물리 시뮬레이션 기반 아키텍처: 행동 - 비디오 쌍 데이터가 없어도 되며, 연속적인 행동을 토큰화할 필요 없이 물리 시뮬레이션을 통해 시각적 신호 (Flow/RGB) 로 변환하는 새로운 패러다임을 제시했습니다.
효율적인 증류 및 흐름 조건부 생성: 광학 흐름 조건을 도입하고 4 단계 디퓨션으로 증류하여, 실시간 생성 속도와 물리적 제어력을 동시에 달성했습니다.

4. 실험 결과 (Results)

성능 비교: PhysGaussian, CogVideoX-I2V, Tora 등 기존 방법들과 비교했을 때, 물리 행동 추종 (Action Following), 운동 충실도 (Motion Fidelity), 물리적 타당성 (Physical Plausibility) 및 시각적 품질에서 모두 우위를 보였습니다.
- 인간 평가 (2AFC) 에서 물리적 타당성 측면에서 PhysGaussian 대비 87.1%, CogVideoX 대비 85.9% 의 선호도를 기록했습니다.
속도: 실시간 스트리밍 (13.2 FPS) 을 달성하여, 기존 방법들이 5 초 이내의 짧은 클립만 생성하거나 수 초의 지연 시간을 가지는 것과 대조됩니다.
다양한 시나리오: 강체, 변형체 (천, 탄성체), 유체 (액체, 연기), 입자 (모래, 눈) 및 이들의 복합 상호작용을 성공적으로 시뮬레이션했습니다.
Ablation Study: 물리 시뮬레이터가 없으면 물리적 결과가 비현실적이 되며, Flow 와 RGB 조건 중 하나라도 제거되면 운동의 일관성이나 구조적 정확도가 떨어지는 것을 확인했습니다.

5. 의의 및 한계 (Significance & Limitations)

의의:
- 로봇 학습 및 계획: 로봇의 행동 결과를 실시간으로 예측하여 시뮬레이션 기반 학습 (Sim-to-Real) 에 활용 가능.
- AR/VR 및 게임: 사용자의 물리적 행동에 반응하는 인터랙티브한 가상 환경 구축.
- 창의적 도구: 물리 법칙을 따르는 "What-if" 시나리오를 실시간으로 탐색할 수 있는 도구 제공.
한계:
- 단일 이미지 기반 3D 재구성의 정확도 (깊이 추정 오차 등) 에 따라 시뮬레이션 결과가 왜곡될 수 있음.
- 현재는 시각적 타당성 (Visual Plausibility) 에 중점을 두었으며, 엄격한 물리 법칙의 완전한 준수보다는 인간이 인지할 수 있는 자연스러운 결과를 목표로 함.

결론적으로, RealWonder는 비디오 생성 모델에 물리 엔진을 통합하여 "보이는 것"을 넘어 "행동하는 것"을 예측할 수 있는 새로운 차원의 인터랙티브 월드 모델을 제시한 획기적인 연구입니다.

RealWonder: Real-Time Physical Action-Conditioned Video Generation