PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

이 논문은 물리 법칙 위반이 모델의 한계가 아닌 프롬프트의 부족에서 기인한다는 점을 규명하고, 강화 학습 기반의 'PhyPrompt'를 통해 자동화된 프롬프트 정제 과정을 도입하여 7B 파라미터 모델로도 대규모 일반 모델보다 뛰어난 물리적으로 타당한 텍스트-비디오 생성 성능을 달성했음을 제시합니다.

Shang Wu, Chenwei Xu, Zhuofan Xia, Weijian Li, Lie Lu, Pranav Maneriker, Fan Du, Manling Li, Han Liu

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

물리 법칙을 잊지 않는 AI 영상: 'PhyPrompt' 이야기

이 논문은 **"AI 가 만든 영상이 아무리 예뻐도, 물리 법칙을 무시하면 안 된다"**는 문제에서 시작합니다. 예를 들어, AI 가 "와인을 잔에 따른다"라고 요청받으면, 와인은 흘러나오는데 잔의 수위는 그대로인 기이한 영상을 만들기도 합니다. 이는 AI 가 시각적인 아름다움은 잘 만들지만, 사물이 어떻게 움직이고 중력을 따르는지 같은 **'물리 상식'**을 잊어버렸기 때문입니다.

이 문제를 해결하기 위해 연구진이 개발한 **'PhyPrompt(파이프롬프트)'**라는 새로운 기술을 쉽게 설명해 드리겠습니다.


1. 문제: AI 는 '화려함'만 알고 '현실'은 모른다

지금까지의 AI 영상 생성기는 마치 화려한 연극 배우와 같습니다. 대본 (프롬프트) 을 주면 표정, 의상, 배경은 아주 잘 연기해냅니다. 하지만 대본에 "와인이 차오른다"는 물리 법칙이 명시적으로 적혀 있지 않으면, AI 는 "아, 와인을 따르는 건데 잔이 차오를 필요는 없나?"라고 생각하며 엉뚱한 장면을 만들어냅니다.

사람이 직접 "잔이 차오르도록 와인을 천천히 따르세요"라고 구체적으로 지시하면 AI 는 잘 만들어냅니다. 하지만 매번 사람이 이렇게 세세하게 지시하는 것은 너무 힘들고 시간이 걸립니다.

2. 해결책: PhyPrompt는 '현실 감각'을 가르치는 '명령어 교정사'

PhyPrompt 는 AI 영상 생성기 앞에 서 있는 지혜로운 '명령어 교정사' 역할을 합니다. 사용자가 "와인을 따르세요"라고 짧게 말하면, PhyPrompt 가 이를 **"잔이 서서히 차오르도록 와인이 부드럽게 흘러나오게 하세요"**라고 물리 법칙을 반영한 구체적인 명령어로 바꿔줍니다.

이 교정사는 두 가지 단계로 훈련됩니다.

1 단계: 물리 법칙을 배우는 '독서' (SFT)

먼저, PhyPrompt 는 물리 법칙에 대한 수많은 예시와 그 이유 (추론 과정) 를 공부합니다. 마치 물리 선생님의 강의를 듣는 것처럼, "왜 공이 떨어질까?", "왜 물은 위로 안 올라갈까?"에 대한 논리를 체득합니다.

2 단계: 실전 훈련과 점수제 (RL with Dynamic Curriculum)

이제 실제 영상을 만들어보며 점수를 받습니다. 여기서 PhyPrompt 의 가장 clever 한 부분이 나옵니다. 바로 **'동적 커리큘럼 (Dynamic Reward Curriculum)'**이라는 훈련 방식입니다.

  • 초반 (의미 우선): 훈련 초기에는 "사용자가 원하는 내용을 잘 그렸나?" (의미 일치도) 에 집중합니다. 마치 건축가가 먼저 건물의 뼈대와 모양을 잡는 단계입니다.
  • 후반 (물리 우선): 뼈대가 잡히면, 이제는 "중력을 잘 따랐나?", "물이 자연스럽게 찼나?" (물리 상식) 에 집중합니다. 마치 건축가가 건물의 내구성과 안전을 점검하는 단계입니다.

이 방식은 "의미"와 "물리"가 서로 충돌할 때 (예: 의미를 지키려다 물리가 망치거나 그 반대) 한쪽을 희생하지 않고, 두 마리 토끼를 모두 잡을 수 있게 해줍니다.

3. 놀라운 결과: 작은 모델이 거인을 이기다

PhyPrompt 는 놀라운 성과를 냈습니다.

  • 작은 두뇌, 큰 능력: PhyPrompt 는 거대하고 비싼 AI(예: GPT-4o, DeepSeek-V3) 보다 훨씬 작은 모델 (70 억 파라미터) 로 만들었습니다. 하지만 물리 법칙을 지키는 능력에서는 거대 모델들을 능가했습니다. 이는 **"무조건 큰 것보다, 특정 일에 특화된 훈련이 더 중요하다"**는 것을 보여줍니다.
  • 어떤 AI 와도 잘 지내: PhyPrompt 는 특정 AI 영상 생성기에만 맞춰진 것이 아니라, Lavie, VideoCrafter, CogVideoX 등 다양한 AI 모델과도 잘 작동합니다. 마치 모든 브랜드의 자동차에 들어갈 수 있는 범용적인 엔진처럼, 어떤 엔진을 쓰든 물리 법칙을 지켜주는 역할을 합니다.

4. 비유로 정리하면?

  • 기존 AI: 화려한 옷을 입은 연극 배우. 대본을 그대로 연기하지만, 물리 법칙 같은 건 모릅니다.
  • PhyPrompt: 배우 옆에 서서 **"저기, 중력을 생각해서 그 동작을 수정해 봐"**라고 조언해주는 지혜로운 연출가.
  • 동적 커리큘럼: 배우에게 먼저 **"역할을 잘 연기하라 (의미)"**고 가르치고, 그다음에 **"현실적으로 연기하라 (물리)"**고 가르치는 단계별 교육 과정.

결론

PhyPrompt 는 AI 가 만든 영상이 단순히 '예쁜 그림'을 넘어, 우리가 사는 현실 세계의 법칙을 따르는 진짜 영상이 되도록 도와줍니다. 사람이 일일이 지시할 필요 없이, AI 가 스스로 물리 상식을 깨우쳐 더 자연스럽고 믿을 수 있는 영상을 만들어내는 시대가 온 것입니다. 이는 로봇 공학, 과학 시뮬레이션, 교육 등 현실적인 적용이 필요한 분야에서 큰 변화를 가져올 것입니다.