SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

이 논문은 가시성 없는 영역을 투명하게 표현하는 3D 장면 표현 (OSCR) 과 마스크 자기 주의를 도입하여, 텍스트-이미지 생성에서 다중 객체의 3D 배치와 깊이 일관성을 유지하면서 정확한 가림 (occlusion) 처리를 가능하게 하는 'SeeThrough3D' 모델을 제안합니다.

Vaibhav Agrawal, Rishubh Parihar, Pradhaan Bhat, Ravi Kiran Sarvadevabhatla, R. Venkatesh Babu

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'SeeThrough3D(씨쓰루 3D)'**라는 새로운 기술을 소개합니다. 쉽게 말해, **"AI 가 그림을 그릴 때, 물체들이 서로 어떻게 가려지는지 (가려진 부분) 를 정확히 이해하고 그릴 수 있게 해주는 기술"**입니다.

기존의 AI 그림 그리기 기술은 "책상 위에 컵과 꽃이 있어"라고 하면, 책상과 컵, 꽃을 각각 그릴 수는 있었지만, **"컵이 꽃을 가리고 있어"**라는 복잡한 3 차원적인 관계를 잘 이해하지 못했습니다. 마치 종이 위에 그림을 그릴 때, 뒤에 있는 물체가 앞의 물체 때문에 어떻게 잘려 보이는지 계산하지 못하고 그냥 다 겹쳐서 그리는 것과 비슷했죠.

이 문제를 해결하기 위해 제안된 SeeThrough3D 의 핵심 아이디어를 일상적인 비유로 설명해 드릴게요.


1. 핵심 아이디어: "투명한 유령 상자" (OSCR)

이 기술의 가장 큰 특징은 **OSCR(Occlusion-Aware 3D Scene Representation)**이라는 새로운 방식의 '지도'를 만든다는 점입니다.

  • 기존 방식 (깊이 지도): 마치 안개 낀 날에 산을 볼 때처럼, "어디가 더 멀리 있고 어디가 더 가까이 있는지"만 대충 나타내는 지도였습니다. 그래서 "뒤에 있는 물체"가 어떻게 생겼는지 AI 가 몰랐죠.
  • SeeThrough3D 방식 (투명한 유령 상자):
    • 상상해 보세요. AI 가 그림을 그릴 때, 각 물체 (예: 개, 자전거, 의자) 를 투명한 유리로 만든 상자로 감싸서 배치합니다.
    • 이 상자는 투명하기 때문에, 뒤에 있는 물체도 희미하게 보입니다. 마치 안경을 쓴 사람이 뒤쪽의 사물을 볼 수 있는 것처럼요.
    • 또한, 상자 각 면에는 색깔을 입혔습니다. 앞면은 주황색, 왼쪽면은 파란색 등으로요. 이렇게 하면 AI 가 "아, 이 물체가 오른쪽을 보고 있구나"라고 방향을 정확히 알 수 있습니다.

이 '투명한 유령 상자' 지도를 AI 에게 보여주면, AI 는 "아, 이 상자가 투명이니까 뒤에 있는 물체도 그릴 수 있겠구나"라고 깨닫게 됩니다.

2. 어떻게 작동할까요? (마술사의 주문)

이 기술은 거대한 AI 모델 (FLUX) 을 기반으로 합니다. 이 모델을 훈련시킬 때 두 가지 마법 같은 장치를 사용합니다.

  1. 투명한 지도를 보여줌: 위에서 말한 '투명한 유령 상자' 그림을 AI 에게 보여줍니다. AI 는 이 그림을 보고 "어떤 물체가 앞이고, 어떤 물체가 뒤인지, 그리고 어떤 물체가 서로 겹쳐 있는지"를 학습합니다.
  2. 주문과 상자 연결 (Attention Masking):
    • 사용자가 "개와 자전거"라고 입력하면, AI 는 "개"라는 글자와 "개"가 있는 상자, "자전거"라는 글자와 "자전거"가 있는 상자를 정확히 연결해야 합니다.
    • 가끔 개와 자전거가 겹쳐서 상자가 섞일 수도 있는데, 이 기술은 "개 상자"는 "개"라는 글자만 보고, "자전거 상자"는 "자전거"라는 글자만 보게 딱딱 묶어줍니다. 그래야 "개"가 "자전거"의 특징을 가져오지 않고, 서로 섞이지 않고 정확하게 그려집니다.

3. 왜 이것이 중요할까요? (실생활 예시)

이 기술이 없다면 AI 가 그리는 그림은 다음과 같은 어색한 상황이 생깁니다.

  • 상황: "책상 뒤에 개가 있고, 책상 위에 컵이 있어"라고 요청합니다.
  • 기존 AI: 개가 책상 위에 올라가 있거나, 컵이 개를 가려서 개가 반만 보이거나, 아예 개가 사라지는 경우가 많습니다.
  • SeeThrough3D: 책상 뒤에 있는 개의 귀나 꼬리가 책상 뒤에서 살짝 보이는 것처럼, **정확한 가림 관계 (Occlusion)**를 이해합니다. 마치 실제 카메라로 찍은 사진처럼, 뒤에 있는 물체가 앞의 물체 때문에 어떻게 잘려 보이는지 자연스럽게 표현합니다.

4. 이 기술의 놀라운 점

  • 복잡한 장면도 가능: 물체가 10 개, 20 개가 서로 뒤엉켜 있어도 (예: 책상 위에 컵, 사과, 토스터, 라면, 장난감 등이 쌓여 있는 상황) 하나하나를 정확히 구분하고 가려진 부분까지 그립니다.
  • 카메라 각도 조절: "위에서 내려다보는 시점"이나 "낮은 곳에서 올려다보는 시점"을 지정하면, 물체들이 서로 가려지는 모습이 카메라 각도에 따라 자연스럽게 변합니다.
  • 새로운 물건도 잘 그립니다: 훈련 데이터에 없던 새로운 물건 (예: 특이한 모양의 장난감) 을 넣어도, 투명한 상자 지도만 있으면 그 물체가 어디에 있고 어떻게 가려지는지 잘 이해합니다.

요약

SeeThrough3D는 AI 에게 **"투명한 유령 상자"**라는 새로운 언어를 가르쳐서, **"앞에 있는 물체가 뒤에 있는 물체를 어떻게 가리는지"**를 완벽하게 이해하게 만든 기술입니다.

이전까지 AI 가 그림을 그릴 때 "뒤에 있는 건 보이지 않으니 그릴 필요 없어"라고 생각했다면, 이제는 **"뒤에 있는 건 가려져서 희미하게 보이지만, 그 존재를 알고 있어야 해"**라고 생각하게 되어, 훨씬 더 현실적이고 입체적인 그림을 그려낼 수 있게 되었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →