Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild

이 논문은 다양한 3D 인간 데이터셋의 부재를 해결하기 위해, 3D 자산 없이도 단일 이미지에서 자연스러운 포즈를 가진 3D 인간을 재구성할 수 있도록 다중 뷰 확산 모델을 포즈 일관성 보상 (PoseScore) 을 통해 직접 미세 조정하는 'DrPose' 알고리즘과 새로운 데이터셋을 제안합니다.

Seunguk Do, Minwoo Huh, Joonghyuk Shin, Jaesik Park

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 문제: "사진 속의 춤추는 사람, 3D 로 만들면 왜 뚱뚱해?"

우리가 스마트폰으로 한 장의 사진을 찍으면, AI 가 그 사람을 3D 입체 모형으로 만들어주는 기술이 있습니다. 하지만 여기서 큰 문제가 생깁니다.

  • 평범한 자세일 때는: AI 가 "아, 이건 사람이 서 있네"라고 잘 알아맞혀서 예쁜 3D 모델을 만듭니다.
  • 역동적인 자세일 때는: (예: 브레이킹 댄스를 하거나, 공을 차는 순간) AI 는 당황합니다. "이건 뭐지? 팔이 어디로 가는 거지?"라고 혼란을 겪습니다. 그 결과, 3D 모델이 비틀리거나, 팔다리가 이상하게 꺾이거나, 마치 뚱뚱해진 것처럼 어색한 자세가 됩니다.

왜 그럴까요?
AI 를 가르친 **교과서 (데이터)**가 너무 평범하기 때문입니다. AI 는 "서 있거나, 앉거나, 걷는" 평범한 사람 사진만 수천 장 보고 배웠지, "역도 선수처럼 팔을 위로 쭉 뻗거나, 공중제비를 도는" 극단적인 자세는 본 적이 거의 없습니다. 그래서 낯선 자세를 만나면 엉뚱한 추측을 하는 것입니다.


💡 2. 해결책: "DrPose (드포즈)"라는 새로운 훈련법

연구팀은 이 문제를 해결하기 위해 DrPose라는 새로운 방법을 개발했습니다. 이걸 이해하기 위해 '요리사' 비유를 들어볼까요?

  • 기존 방식: 요리사 (AI) 가 '평범한 스테이크' 레시피만 보고 훈련을 받았습니다. 그런데 손님이 "이상한 모양으로 구운 스테이크"를 주문하면 요리사는 당황해서 엉망으로 만들어냅니다.
  • DrPose 방식: 연구팀은 요리사에게 **새로운 레시피 (DrPose15K)**를 줍니다. 이 레시피는 "역동적인 자세"를 가진 15,000 개의 다양한 인간 동작 데이터를 담고 있습니다.

하지만 여기서 중요한 건, 실제 3D 스캔 데이터 (비싼 재료) 를 구할 수 없었다는 점입니다. 그래서 연구팀은 다음과 같은 똑똑한 방법을 썼습니다.

  1. 가상 재료 만들기: "동작 데이터 (Motion Data)"만 있는 상태에서, AI 가 "이 동작을 하는 사람의 사진"을 먼저 만들어냅니다. (마치 레시피만 보고 요리를 상상해 그리는 것과 같습니다.)
  2. 정답 확인 (PoseScore): AI 가 만든 3D 모델이 원래 의도한 동작과 얼마나 일치하는지, **"스케치북 (뼈대)"**을 그려서 비교합니다.
    • 비유: AI 가 그린 그림을 보고 "아, 이 손가락 위치가 틀렸네!"라고 지적해주는 **엄격한 선생님 (PoseScore)**이 등장합니다.
  3. 실수 교정: AI 는 이 선생님의 지적을 듣고, "다음엔 이 자세를 더 잘 그릴게요"라고 스스로 수정하며 훈련합니다.

이 과정을 통해 AI 는 비싼 3D 스캔 데이터 없이도, 다양한 동작을 가진 사람 사진을 보고 "어떤 자세든 자연스럽게 3D 로 만들 수 있는 능력"을 키우게 됩니다.


🏆 3. 결과: "어떤 자세든 완벽하게!"

이新方法으로 훈련된 AI 를 테스트해 보니 놀라운 결과가 나왔습니다.

  • 기존 AI: 역동적인 자세를 만나면 팔이 뭉개지거나 다리가 꼬여 보입니다.
  • DrPose AI: 브레이킹 댄스, 공중제비, 공을 차는 순간 등 어떤 극단적인 자세라도 원래 의도한 대로 자연스럽고 정확한 3D 모델을 만들어냅니다.

연구팀은 이를 증명하기 위해 MixamoRP라는 새로운 시험지 (벤치마크) 를 만들었는데, 여기서 DrPose 는 다른 모든 경쟁자보다 훨씬 높은 점수를 받았습니다.


🚀 4. 요약: 왜 이 기술이 중요할까요?

이 기술은 게임, 영화, 패션 산업에 큰 변화를 줄 것입니다.

  • 게임 개발자: 복잡한 액션 장면을 만들 때, 매번 3D 모델을 일일이 수정할 필요 없이, 한 장의 사진이나 간단한 동작 명령으로 자연스러운 캐릭터를 만들 수 있습니다.
  • 패션/쇼핑: 온라인 쇼핑몰에서 옷을 입은 가상 인형이 춤을 추거나 운동을 해도 옷이 찢어지거나 몸이 기괴하게 변하지 않습니다.

한 줄 요약:

"AI 가 평범한 자세만 본다고 해서 역동적인 동작을 못 하는 건 아니죠! DrPose 는 AI 에게 '어떤 자세든 자연스럽게' 그려내는 비법을 가르쳐주어, 한 장의 사진으로도 완벽한 3D 인간을 만들어냅니다."