PICS: Pairwise Image Compositing with Spatial Interactions

이 논문은 확산 기반 이미지 합성에서 발생하는 공간적 일관성 문제를 해결하기 위해, 마스크 가이드 혼합 전문가 (Mixture-of-Experts) 와 적응형 알파 블렌딩을 통해 객체 간의 상호작용을 명시적으로 모델링하는 자기지도 학습 방식인 PICS 를 제안합니다.

Hang Zhou, Xinxin Zuo, Sen Wang, Li Cheng

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 PICS라는 새로운 인공지능 기술을 소개합니다. 이 기술은 두 장의 사진에서 각각 다른 사물을 잘라내어, 마치 한 장의 자연스러운 사진처럼 합성하는 '이미지 합성' 작업을 훨씬 더 똑똑하게 해냅니다.

기존의 인공지능들은 사물을 하나씩 순서대로 붙이다 보니, 나중에 붙인 사물이 먼저 붙인 사물을 덮어버리거나 경계가 어색해지는 문제가 있었습니다. PICS 는 이 문제를 해결하기 위해 "함께 생각하기" 방식을 도입했습니다.

이제 이 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제 상황: "순서대로 쌓는 레고"의 함정

기존의 합성 기술은 마치 레고를 하나씩 쌓아 올리는 사람과 같습니다.

  • 먼저 바닥에 '의자'를 놓습니다.
  • 그다음 '사람'을 의자 위에 놓으려 합니다.
  • 그런데 인공지능이 "의자가 이미 바닥에 있잖아?"라고 생각하며, 사람과 의자가 닿는 부분을 무작정 지워버리거나, 사람이 의자 뒤로 사라지게 만들기도 합니다.
  • 결과적으로 사람이 의자에 앉는 게 아니라, 의자가 사람에게 먹혀버리거나 둘의 경계가 뭉개진 이상한 사진이 나옵니다.

2. PICS 의 해결책: "동시에 조율하는 오케스트라 지휘자"

PICS 는 이 문제를 해결하기 위해 모든 사물을 동시에 고려하는 '병렬 합성' 방식을 사용합니다.

  • 비유: PICS 는 레고를 하나씩 쌓는 게 아니라, 오케스트라 지휘자처럼 행동합니다.
  • 지휘자는 바이올린 (의자) 과 첼로 (사람) 가 동시에 연주할 때, 서로의 소리가 섞이지 않고 조화롭게 들리도록 한 번에 지시를 내립니다.
  • "의자는 뒤에 있고, 사람은 앞에 있어. 그리고 두 사물이 닿는 부분에서는 사람이 의자를 살짝 가리도록 해."라고 한 번에 결정합니다.
  • 이렇게 하면 사물이 서로 겹치는 부분 (가려지는 부분) 이 자연스럽게 처리되어, 실제 사진처럼 보입니다.

3. 핵심 기술: "마법 같은 투명 유리창" (상호작용 트랜스포머)

PICS 는 합성할 때 사물과 배경, 그리고 사물끼리의 관계를 아주 세밀하게 분석합니다. 이를 위해 **'인터랙션 트랜스포머 (Interaction Transformer)'**라는 기술을 썼는데, 이를 투명 유리창에 비유해 볼 수 있습니다.

  • 상황: 의자와 사람이 겹치는 부분을 어떻게 처리할까요?
  • 기존 방식: 그냥 두 이미지를 섞어버려서 경계가 흐릿해집니다.
  • PICS 방식: PICS 는 지능형 투명 유리창을 만들어냅니다.
    • 이 유리창은 "여기는 사람이 앞장서서 보이고, 저기는 의자가 살짝 비쳐야 해"라고 스스로 판단합니다.
    • 마치 스마트한 페인트처럼, 어떤 사물이 더 중요하고 어떤 사물이 뒤에 있어야 할지 상황에 따라 투명도를 조절하며 자연스럽게 섞어줍니다.
    • 특히, 사물이 구부러지거나 (예: 옷 주름), 다른 사물을 가릴 때 (예: 사람이 의자 등받이를 가림) 이런 물리적인 법칙을 이해하고 적용합니다.

4. 다양한 각도에도 강한 "3D 감각"

이 기술은 단순히 2 차원 사진만 보는 게 아니라, 3 차원 공간감을 이해합니다.

  • 비유: 우리가 물체를 볼 때, 정면에서 보든 옆에서 보든 그 물체의 모양이 일정하다는 것을 알죠? PICS 도 마찬가지입니다.
  • 훈련 과정에서 물체를 다양한 각도에서 회전시키거나, 다른 각도에서 본 모습을 학습시켜서, 합성할 때 물체가 뚱뚱해지거나 비틀리지 않고 자연스러운 3D 형태를 유지하도록 합니다.

5. 요약: 왜 PICS 가 특별한가요?

  • 기존: "하나, 둘, 셋" 순서대로 붙이다 보니, 나중에 붙은 게 앞의 걸 지워버리는 실수가 잦았습니다. (불완전한 합성)
  • PICS: "하나, 둘, 셋"을 한 번에 보고, 서로의 관계를 고려하여 자연스럽게 합칩니다. (완벽한 합성)

결론적으로, PICS 는 두 장의 사진을 합칠 때, **"누가 앞이고 누가 뒤인지", "서로 어떻게 겹쳐져야 자연스러운지"**를 인공지능 스스로가 물리 법칙을 이해하듯 계산해 내어, 마치 처음부터 한 장의 사진으로 찍힌 것처럼 매우 사실적이고 자연스러운 결과물을 만들어냅니다.

이 기술은 가상 의상 입기 (Virtual Try-on) 나 실내 인테리어 변경, 영화 특수효과 등 다양한 분야에서 더 현실적인 이미지 편집을 가능하게 할 것으로 기대됩니다.