Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

이 논문은 다중 참조 이미지 기반의 일관된 비디오 생성을 위해 고품질 데이터 파이프라인과 참조 회전 위치 인코딩 (R-RoPE) 을 도입한 오픈 소스 모델 'Kaleido'를 제안하며, 기존 방법보다 뛰어난 일관성과 충실도를 입증합니다.

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang, Tiankun Cao, Cheng Wang, Xiaotao Gu, Jie Tang, Dan Guo, Meng Wang

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 칼레도 (Kaleido): 여러 장의 사진으로 '완벽한 주인공'이 나오는 영상을 만드는 마법

이 논문은 **"칼레도 (Kaleido)"**라는 새로운 인공지능 모델을 소개합니다. 쉽게 말해, **"여러 장의 사진만 주면, 그 사진 속 주인공이 다양한 상황에서도 변함없이 똑같은 얼굴과 옷을 입고 움직이는 영상을 만들어주는 기술"**입니다.

기존 기술들이 겪었던 문제와 칼레도가 어떻게 해결했는지, 마치 요리사연극에 비유해서 설명해 드릴게요.


1. 기존 기술의 문제점: "사진 속 배경까지 따라오는 괴물"

기존의 AI 영상 생성 기술들은 두 가지 큰 고민이 있었습니다.

  • 문제 1: 주인공이 망가집니다 (일관성 부족)

    • 비유: 연극 배우가 무대에 올라가는데, 1 막에서는 얼굴이 예쁘고, 2 막에서는 코가 길어지고, 3 막에서는 옷이 바뀌어버린다면 어떨까요?
    • 현실: AI 가 여러 장의 사진을 보고 영상을 만들 때, 주인공의 얼굴이나 옷이 영상 중간에 자꾸 변하거나 다른 사람으로 바뀌는 경우가 많았습니다. 특히 여러 명의 주인공이 나올 때는 더 혼란스러웠습니다.
  • 문제 2: 배경이 주인공을 따라옵니다 (배경 분리 실패)

    • 비유: 사진 속 주인공이 '카페'에서 커피를 마시는 사진을 줬는데, AI 가 만든 영상에서 주인공이 카페 테이블까지 들고 다니며 춤을 추는 꼴입니다.
    • 현실: AI 가 주인공을 배우는 과정에서, 배경이나 주변 사물까지 함께 기억해버려서, 원하는 배경 (예: 해변, 우주) 으로 바꾸려 해도 원래 사진의 배경이 계속 따라다니는 문제가 있었습니다.

2. 칼레도 (Kaleido) 의 해결책: "명품 요리사"의 비법

칼레도는 이 두 가지 문제를 해결하기 위해 두 가지 핵심 비법을 사용했습니다.

🥗 비법 1: "완벽한 재료 선별 및 조합" (데이터 구축 파이프라인)

요리사가 맛있는 요리를 하려면 재료가 좋아야 하죠? 칼레도는 훈련용 데이터를 만드는 과정에서 엄격한 필터를 적용했습니다.

  • 혼합 요리 (Cross-Paired Data): 기존에는 '사진 속 주인공 + 사진 속 배경'을 그대로 학습시켰습니다. 하지만 칼레도는 주인공 사진과 전혀 다른 배경을 인위적으로 섞어서 학습시켰습니다.
    • 예시: "카페에 있는 고양이" 사진에서 고양이를 잘라내서, "우주선 안"이나 "사막" 배경에 붙여주는 식입니다.
    • 효과: AI 는 "아, 고양이는 고양이일 뿐이고, 배경은 내가 원하는 대로 바꿀 수 있구나!"라고 깨닫게 되어, 배경과 주인공을 완벽하게 분리할 수 있게 되었습니다.

🧩 비법 2: "주인공 전용 좌석표" (R-RoPE 기술)

여러 장의 사진을 AI 에게 보여줄 때, 사진들이 서로 섞여서 "누가 주인공인지"를 헷갈리게 만들 수 있습니다.

  • 비유: 극장에서 여러 명의 배우가 무대에 나올 때, 모두 같은 좌석 번호를 받으면 누가 누구인지 모릅니다.
  • 해결: 칼레도는 R-RoPE라는 기술을 써서, 각 사진 (참조 이미지) 에 **고유한 좌석 번호 (위치 정보)**를 부여했습니다.
    • 영상 속 프레임은 "1 번, 2 번, 3 번..." 좌석에 앉고, 참조 사진들은 "100 번, 101 번..."처럼 완전히 다른 구역에 앉게 했습니다.
    • 효과: AI 는 "이건 영상 속 장면이고, 저건 참고할 사진이야"라고 명확히 구분하게 되어, 여러 장의 사진에서도 주인공의 특징을 정확히 기억하고 유지할 수 있게 되었습니다.

3. 결과: "상상력이 현실이 되는 마법"

이 기술을 적용한 결과, 칼레도는 다음과 같은 성과를 냈습니다.

  • 주인공은 그대로: 여러 장의 사진에서 본 주인공이 영상 전체에서 얼굴, 옷, 특징이 변하지 않습니다. (비유: 연극 내내 배우가 변신하지 않음)
  • 배경은 자유: "주인공을 바다로 보내줘", "우주선 안으로 보내줘"라고 하면, 배경만 바뀌고 주인공은 그대로 유지됩니다. (비유: 배우는 그대로인데, 무대 배경만 바뀜)
  • 여러 명도 가능: 한 장의 영상에 주인공 A 와 주인공 B 가 함께 등장해도, 서로의 특징이 섞이지 않고 자연스럽게 상호작용합니다.

📝 한 줄 요약

"칼레도"는 AI 가 사진 속 주인공을 '배우'로, 배경을 '무대'로 완벽하게 분리해서, 우리가 원하는 대로 무대를 바꾸면서도 배우는 변함없이 멋진 연기를 하도록 만든 새로운 기술입니다.

이 기술은 오픈소스로 공개되어, 누구나 무료로 사용할 수 있게 되었으며, 앞으로 광고, 영화, 게임 등 다양한 분야에서 창의적인 영상 제작을 가능하게 할 것으로 기대됩니다.