GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

이 논문은 사전 훈련된 비디오 생성 모델에 시간적 균형을 위한 헤드 슬라이딩 RoPE 와 공간적 선택성을 위한 2 단계 공간 주의 게이트를 도입하여, 자연스러운 손 - 물체 상호작용을 생성하면서도 물체의 일관성을 유지하는 경량화 증강 기법인 GenHOI 를 제안합니다.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'GenHOI'**라는 새로운 기술을 소개합니다. 쉽게 말해, **"사람이 물건을 잡거나 만지는 장면을 영상으로 만들 때, 그 물건의 모양과 색이 영상 내내 변하지 않고 자연스럽게 유지되도록 해주는 기술"**입니다.

이 복잡한 기술을 일상적인 비유로 설명해 드릴게요.

1. 왜 이 기술이 필요한가요? (기존의 문제점)

지금까지 영상 편집 AI 들은 두 가지 큰 고민이 있었습니다.

  • 전문가용 로봇 (HOI 재현 모델): 특정 상황 (예: 컵을 잡는 동작) 만은 잘하지만, 새로운 상황 (예: 책상 위를 치우는 동작) 이나 자연스러운 배경에서는 엉망이 됩니다. 마치 오직 '커피 마시는 동작'만 연습한 배우가 무대 위에서 다른 행동을 하려다 넘어지는 것과 같습니다.
  • 만능 편집기 (All-in-one 모델): 인터넷의 모든 영상을 학습해서 어떤 상황도 잘 처리하지만, 물건의 정체성을 유지하는 데는 약합니다. 예를 들어, 빨간 사과를 잡는 장면을 만들었는데, 3 초 뒤에는 사과가 노란 배로 변하거나 모양이 뭉개지는 경우가 많습니다. 마치 변장 능력이 뛰어난 마술사가 등장하자마자 모자를 벗고 다른 사람으로 변해버리는 것과 같습니다.

GenHOI는 이 두 가지의 단점을 없애고, **어떤 상황에서도 물건의 모양과 색이 변하지 않으면서 자연스러운 상호작용을 만들어내는 '완벽한 배우'**를 만든 것입니다.


2. GenHOI 의 핵심 비법 두 가지

이 기술이 어떻게 그런 마법을 부릴까요? 두 가지 핵심 장치를 사용합니다.

① '시간을 균등하게 분배하는 안경' (Head-Sliding RoPE)

  • 비유: 보통 AI 는 영상의 첫 번째 프레임 (시작 장면) 에서만 물건의 정보를 보고 나머지 장면을 만들어냅니다. 그런데 시간이 지날수록 그 정보가 희미해져서 마지막 장면에서는 물건이 사라지거나 변해버립니다. 마치 시작할 때만 들은 지시사항을 기억하려다, 시간이 지나면 잊어버리는 학생과 같습니다.
  • 해결책: GenHOI 는 **'Head-Sliding RoPE'**라는 기술을 써서, 물건 정보를 영상 전체의 시간대에 골고루 분배합니다. 마치 영상을 보는 동안 내내 "이건 빨간 사과야!"라고 귀에 속삭여주는 안경을 끼게 하는 것과 같습니다. 덕분에 영상의 끝까지 물건의 모양이 일관되게 유지됩니다.

② '손과 물건만 집중하는 스포트라이트' (Spatial Attention Gate)

  • 비유: AI 가 영상을 만들 때, 배경 (벽, 바닥) 과 손이 닿는 부분 (상호작용 영역) 을 구분하지 않고 똑같이 처리하면 문제가 생깁니다. 배경에 물건 정보를 주면 배경이 엉망이 되고, 손에 정보를 주지 않으면 물건이 손에 안 잡힙니다. 마치 콘서트에서 무대 전체에 스포트라이트를 비추다가, 정작 주인공인 가수만 어둠 속에 남겨두는 실수를 하는 것과 같습니다.
  • 해결책: GenHOI 는 **'스포트라이트'**를 켭니다.
    1. 하드 마스크 (Hard Mask): 손이 물건을 만지는 부분에만 정보를 흐르게 하고, 배경에는 아예 정보를 차단합니다. (배경은 원래대로 유지)
    2. 소프트 게이트 (Soft Flow Gate): 필요한 곳에는 정보를 강하게, 덜 필요한 곳에는 약하게 조절합니다.
      이 두 가지를 합쳐서, 오직 '손과 물건이 만지는 순간'에만 집중하게 만들어 자연스러운 접촉감을 구현합니다.

3. 실제 효과는 어떨까요?

이 기술을 적용하면 다음과 같은 놀라운 일이 일어납니다.

  • 자연스러운 상호작용: 사람이 컵을 잡고, 책을 넘기거나, 공을 던지는 장면이 마치 실제 촬영한 것처럼 자연스럽게 보입니다.
  • 일관된 물건: 영상 시작부터 끝까지 물건의 로고, 색상, 질감이 변하지 않습니다. (예: 컵에 그려진 로고가 흔들려도 깨지지 않음)
  • 다양한 상황 대응: 배경이 바뀌거나, 물건의 크기가 달라지거나, 새로운 물건을 넣어도 잘 작동합니다. (예: 가방을 잡는 영상을 컵으로 바꾸거나, 마법 지팡이로 바꾸는 것도 가능)

4. 요약

GenHOI는 기존 AI 들이 겪던 "물건이 변해버리는 문제"와 "배경이 망가지는 문제"를 해결한 차세대 영상 생성 기술입니다.

마치 가장 뛰어난 무대 감독이 배우 (손) 와 소품 (물건) 의 관계를 완벽하게 조율하여, 관객 (시청자) 이 "와, 진짜 같네!"라고 감탄할 수 있는 영상을 만들어내는 것과 같습니다. 이 기술은 온라인 교육, 쇼핑, 엔터테인먼트 등 다양한 분야에서 실제 촬영 없이도 고품질의 영상을 만들 수 있게 해줄 것입니다.