TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures

이 논문은 단일 이미지에서 3D 인간과 물체의 재구성을 위해 물리적 접촉 정보뿐만 아니라 텍스트 설명과 외관 단서를 활용하여 비접촉 상호작용을 포함한 보다 정확하고 의미적으로 일관된 재구성을 가능하게 하는 'TeHOR' 프레임워크를 제안합니다.

Hyeongjin Nam, Daniel Sungho Jung, Kyoung Mu Lee

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 1. 기존 기술의 문제점: "눈만 믿는 장님"

기존의 3D 복원 기술들은 사진을 보고 사람과 사물을 3D 로 만들 때, **"사람이 사물을 잡고 있거나 닿아 있는 부분"**에만 너무 집착했습니다.

  • 비유: 마치 손이 닿는 곳만 보고 그림을 그리는 화가 같아요.
    • 사람이 공을 잡으면 "잡고 있다"고 인식해서 공을 손에 붙여줍니다.
    • 하지만 사람이 공을 향해 점프해서 잡으려는 순간 (아직 손이 닿지 않은 상태) 이나, 스케이트보드를 타고 점프하는 모습을 보면, "손이 공에 닿지 않았으니" 공이 어디에 있어야 할지, 사람이 어떤 자세를 취해야 할지 전혀 모릅니다.
    • 결과적으로 공이 허공에 떠 있거나, 사람이 이상하게 구부정하게 서 있는 어색한 3D 모델이 만들어집니다.

🧠 2. TeHOR 의 혁신: "이야기를 읽어주는 천재 작가"

TeHOR 는 이 문제를 해결하기 위해 사진을 보고 '이야기 (텍스트)'를 만들어내는 AI를 도입했습니다.

  • 핵심 아이디어: "이 사진은 **'남자가 스케이트보드로 트릭을 하고 있다'**는 이야기야!"라고 AI 가 스스로 설명을 만들어낸 뒤, 그 **이야기 (텍스트)**를 3D 모델링의 나침반으로 사용합니다.
  • 비유: 이제 화가는 손이 닿는 곳뿐만 아니라, 그림의 '분위기'와 '이야기'까지 읽을 수 있게 되었습니다.
    • "남자가 점프 중이야!"라는 이야기를 들으면, AI 는 "아! 공중으로 떠 있어야겠구나! 스케이트보드는 발 아래에 있어야겠구나!"라고 추론합니다.
    • 손이 닿지 않아도, **이야기 (의도)**를 통해 사람과 사물의 올바른 위치와 자세를 찾아냅니다.

🛠️ 3. 어떻게 작동할까요? (두 가지 핵심 도구)

TeHOR 는 두 가지 강력한 도구를 합쳐서 작동합니다.

  1. 이야기 (텍스트) 로 방향을 잡기:

    • 사진 속 상황을 GPT-4 같은 AI 가 보고 "여자는 개를牵着 (끌고) 서 있다"거나 "남자는 공을 잡으려 점프한다"는 세부적인 설명을 만들어냅니다.
    • 이 설명을 바탕으로 3D 모델을 수정합니다. 손이 닿지 않아도 "점프 중"이라는 설명만으로도 공중의 자세를 완벽하게 맞춰줍니다.
  2. 전체적인 '분위기'를 맞추기:

    • 기존 기술은 사람과 사물이 닿는 '국소적인 부분'만 맞춰서, 전체적으로 어색한 경우가 많았습니다 (예: 병이 뒤집혀 있거나).
    • TeHOR 는 전체 그림의 색감, 조명, 분위기까지 텍스트 설명과 비교합니다. "화려한 모자이크 벤치에 앉아 있다"는 설명이 있다면, 벤치의 색상과 사람의 앉은 자세가 그 분위기에 맞도록 전체를 다듬습니다.

🌟 4. 왜 이것이 중요한가요?

이 기술은 단순한 3D 모델링을 넘어, 사람과 사물의 '관계'를 이해하는 것입니다.

  • 비접촉 상황도 완벽하게: 공을 잡으려는 순간, 물건을 가리키는 순간, 눈으로 바라보는 순간처럼 손이 닿지 않는 상황에서도 자연스러운 3D 장면을 만들어냅니다.
  • 실제 같은 질감 (Texture): 사람 옷의 무늬나 사물의 질감까지 생생하게 복원하여, VR(가상현실) 이나 게임, 로봇 훈련 등에 바로 쓸 수 있는 실감 나는 디지털 자산을 만듭니다.

📝 요약

TeHOR는 "사진을 보고 3D 를 만드는 기술"에 **AI 가 만들어낸 '이야기 (텍스트)'**를 더했습니다.

기존: "손이 닿는 곳만 보고 맞춰주세요." (어색함)
TeHOR: "이 사진은 **'남자가 공을 잡으려 점프하는 중'**이라는 이야기야! 그 이야기를 바탕으로 맞춰주세요." (완벽함)

이처럼 이야기를 통해 상황의 맥락을 이해함으로써, 사람이 사물과 어떻게 상호작용하는지 훨씬 더 자연스럽고 정확하게 3D 로 재현해냅니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →