Each language version is independently generated for its own context, not a direct translation.

🎨 칼레도 (Kaleido): 여러 장의 사진으로 '완벽한 주인공'이 나오는 영상을 만드는 마법

이 논문은 **"칼레도 (Kaleido)"**라는 새로운 인공지능 모델을 소개합니다. 쉽게 말해, **"여러 장의 사진만 주면, 그 사진 속 주인공이 다양한 상황에서도 변함없이 똑같은 얼굴과 옷을 입고 움직이는 영상을 만들어주는 기술"**입니다.

기존 기술들이 겪었던 문제와 칼레도가 어떻게 해결했는지, 마치 요리사와 연극에 비유해서 설명해 드릴게요.

1. 기존 기술의 문제점: "사진 속 배경까지 따라오는 괴물"

기존의 AI 영상 생성 기술들은 두 가지 큰 고민이 있었습니다.

문제 1: 주인공이 망가집니다 (일관성 부족)
- 비유: 연극 배우가 무대에 올라가는데, 1 막에서는 얼굴이 예쁘고, 2 막에서는 코가 길어지고, 3 막에서는 옷이 바뀌어버린다면 어떨까요?
- 현실: AI 가 여러 장의 사진을 보고 영상을 만들 때, 주인공의 얼굴이나 옷이 영상 중간에 자꾸 변하거나 다른 사람으로 바뀌는 경우가 많았습니다. 특히 여러 명의 주인공이 나올 때는 더 혼란스러웠습니다.
문제 2: 배경이 주인공을 따라옵니다 (배경 분리 실패)
- 비유: 사진 속 주인공이 '카페'에서 커피를 마시는 사진을 줬는데, AI 가 만든 영상에서 주인공이 카페 테이블까지 들고 다니며 춤을 추는 꼴입니다.
- 현실: AI 가 주인공을 배우는 과정에서, 배경이나 주변 사물까지 함께 기억해버려서, 원하는 배경 (예: 해변, 우주) 으로 바꾸려 해도 원래 사진의 배경이 계속 따라다니는 문제가 있었습니다.

2. 칼레도 (Kaleido) 의 해결책: "명품 요리사"의 비법

칼레도는 이 두 가지 문제를 해결하기 위해 두 가지 핵심 비법을 사용했습니다.

🥗 비법 1: "완벽한 재료 선별 및 조합" (데이터 구축 파이프라인)

요리사가 맛있는 요리를 하려면 재료가 좋아야 하죠? 칼레도는 훈련용 데이터를 만드는 과정에서 엄격한 필터를 적용했습니다.

혼합 요리 (Cross-Paired Data): 기존에는 '사진 속 주인공 + 사진 속 배경'을 그대로 학습시켰습니다. 하지만 칼레도는 주인공 사진과 전혀 다른 배경을 인위적으로 섞어서 학습시켰습니다.
- 예시: "카페에 있는 고양이" 사진에서 고양이를 잘라내서, "우주선 안"이나 "사막" 배경에 붙여주는 식입니다.
- 효과: AI 는 "아, 고양이는 고양이일 뿐이고, 배경은 내가 원하는 대로 바꿀 수 있구나!"라고 깨닫게 되어, 배경과 주인공을 완벽하게 분리할 수 있게 되었습니다.

🧩 비법 2: "주인공 전용 좌석표" (R-RoPE 기술)

여러 장의 사진을 AI 에게 보여줄 때, 사진들이 서로 섞여서 "누가 주인공인지"를 헷갈리게 만들 수 있습니다.

비유: 극장에서 여러 명의 배우가 무대에 나올 때, 모두 같은 좌석 번호를 받으면 누가 누구인지 모릅니다.
해결: 칼레도는 R-RoPE라는 기술을 써서, 각 사진 (참조 이미지) 에 **고유한 좌석 번호 (위치 정보)**를 부여했습니다.
- 영상 속 프레임은 "1 번, 2 번, 3 번..." 좌석에 앉고, 참조 사진들은 "100 번, 101 번..."처럼 완전히 다른 구역에 앉게 했습니다.
- 효과: AI 는 "이건 영상 속 장면이고, 저건 참고할 사진이야"라고 명확히 구분하게 되어, 여러 장의 사진에서도 주인공의 특징을 정확히 기억하고 유지할 수 있게 되었습니다.

3. 결과: "상상력이 현실이 되는 마법"

이 기술을 적용한 결과, 칼레도는 다음과 같은 성과를 냈습니다.

주인공은 그대로: 여러 장의 사진에서 본 주인공이 영상 전체에서 얼굴, 옷, 특징이 변하지 않습니다. (비유: 연극 내내 배우가 변신하지 않음)
배경은 자유: "주인공을 바다로 보내줘", "우주선 안으로 보내줘"라고 하면, 배경만 바뀌고 주인공은 그대로 유지됩니다. (비유: 배우는 그대로인데, 무대 배경만 바뀜)
여러 명도 가능: 한 장의 영상에 주인공 A 와 주인공 B 가 함께 등장해도, 서로의 특징이 섞이지 않고 자연스럽게 상호작용합니다.

📝 한 줄 요약

"칼레도"는 AI 가 사진 속 주인공을 '배우'로, 배경을 '무대'로 완벽하게 분리해서, 우리가 원하는 대로 무대를 바꾸면서도 배우는 변함없이 멋진 연기를 하도록 만든 새로운 기술입니다.

이 기술은 오픈소스로 공개되어, 누구나 무료로 사용할 수 있게 되었으며, 앞으로 광고, 영화, 게임 등 다양한 분야에서 창의적인 영상 제작을 가능하게 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존의 주제 - 비디오 생성 (Subject-to-Video, S2V) 모델은 여러 개의 참조 이미지 (Reference Images) 를 기반으로 특정 주제 (인물, 사물, 배경 등) 의 일관성을 유지하면서 비디오를 생성하는 것을 목표로 합니다. 그러나 현재 오픈소스 S2V 모델들은 다음과 같은 주요 한계점을 겪고 있습니다:

다중 주제 일관성 및 배경 분리 실패: 여러 참조 이미지를 동시에 조건으로 사용할 때, 주제 간의 혼란이 발생하거나 배경 정보가 비디오 생성에 불필요하게 섞여 들어가는 (Background Entanglement) 문제가 있습니다.
데이터의 한계: 기존 데이터 파이프라인은 비디오 프레임을 단순히 참조 이미지로 사용하므로, 주제가 배경이나 주변 객체와 분리되지 않은 (Entangled) 상태로 학습됩니다. 이로 인해 생성된 비디오가 불필요한 배경 요소나 객체를 그대로 복사하거나, 다중 주제 상황에서 일관성이 떨어집니다.
조건부 주입 (Conditioning) 전략의 비효율성: 참조 이미지를 비디오 시퀀스에 단순히 연결 (Concatenation) 하는 방식은 모델이 이미지 토큰을 비디오 프레임으로 오인하게 만들어 시간적 연속성을 해치고, 다중 참조 이미지 간의 공간적 혼란을 야기합니다.

2. 방법론 (Methodology)

Kaleido 는 위 문제들을 해결하기 위해 고품질 데이터 구축 파이프라인과 **새로운 조건 주입 메커니즘 (R-RoPE)**을 제안합니다.

가. 데이터 구축 파이프라인 (Dataset Construction Pipeline)

모델의 성능을 높이기 위해 6 단계의 확장 가능한 데이터 파이프라인을 설계했습니다:

비디오 전처리 및 캡션: 대규모 비디오를 클립으로 자르고 자동 캡션 모델을 통해 텍스트 - 비디오 정렬을 수행합니다.
주제 분류 및 식별: 100 개 이상의 주제 카테고리와 800 개 이상의 동의어를 포함하는 분류 체계를 통해 다양한 주제를 자동 식별합니다.
그라운딩 및 분할 (Grounding & Segmentation): Grounding DINO 와 SAM 을 결합하여 주제의 정확한 위치와 세밀한 분할 마스크를 생성합니다.
필터링 및 검증: 크기, CLIP 기반 분류, IoU(중첩 비율), 화질 (밝기, 흐림) 등을 기준으로 저품질 데이터를 제거합니다. 특히 인간 주제의 경우 얼굴 인식을 통해 정면 얼굴이 있는 경우만 선별합니다.
배경 분리 증강 (Background Disentanglement): 분할된 영역의 배경을 인페인팅 (Inpainting) 기술로 제거하여, 모델이 참조 이미지에서 주제만 학습하고 배경은 텍스트 프롬프트에 의존하도록 유도합니다.
자세 및 모션 증강 (Pose & Motion Enrichment): Flux Redux 를 활용하여 원본 비디오에 없는 새로운 자세와 모션을 참조 이미지에 추가하여, 모델이 프레임 간 유사성에 과적합 (Overfitting) 되지 않고 주체의 본질적인 특징을 학습하도록 합니다.
크로스 페어링 (Cross-Paired Data): 서로 다른 인스턴스 (Subject) 와 배경을 조합하여 생성된 '크로스 페어링' 데이터를 포함시켜, 주제가 배경과 독립적임을 학습시킵니다.

나. 프레임워크 및 R-RoPE (Reference Rotary Positional Encoding)

조건 주입 전략: 복잡한 어댑터 (Adapter) 모듈 대신, 인코딩된 참조 이미지 토큰과 비디오 노이즈 표현을 시퀀스 차원에서 단순 연결 (Concatenation) 하는 방식을 사용합니다.
R-RoPE 도입: 단순 연결 시 발생할 수 있는 이미지 토큰과 비디오 토큰의 혼란을 해결하기 위해 **참조 회전 위치 인코딩 (R-RoPE)**을 제안합니다.
- 기존 3D RoPE 는 비디오 토큰에 $(t, h, w)$ 좌표를 사용합니다.
- R-RoPE 는 참조 이미지 토큰의 공간적 차원 ( $h, w$ ) 을 비디오 시퀀스의 최대 차원 ( $H_{max}, W_{max}$ ) 만큼 시프트 (Shift) 시켜, 이미지 토큰이 비디오 토큰과 명확히 구분되는 고유한 위치를 갖도록 합니다.
- 이를 통해 모델은 다중 참조 이미지를 명확히 구분하고, 시간적 연속성을 해치지 않으면서도 주제의 특징을 정밀하게 통합할 수 있습니다.

3. 주요 기여 (Key Contributions)

종합적인 데이터 구축 파이프라인: 저품질 샘플 필터링, 다양한 데이터 증강, 그리고 크로스 페어링 (Cross-Paired) 데이터 생성을 통해 주제와 배경이 분리된 고품질 학습 데이터를 확보했습니다.
R-RoPE 메커니즘: 다중 참조 이미지를 처리하기 위한 회전 위치 인코딩을 도입하여, 다중 주제/다중 이미지 환경에서의 일관성과 배경 분리 능력을 획기적으로 향상시켰으며, 계산 효율성을 유지했습니다.
최첨단 오픈소스 S2V 모델: 제안된 방법론을 통해 오픈소스 모델이 폐쇄형 (Closed-source) 상용 모델 (Kling, Vidu 등) 과 경쟁 가능한 성능을 달성했습니다.

4. 실험 결과 (Results)

정량적 평가: VBench 및 S2V 특화 지표 (S2V Consistency, S2V Decoupling) 에서 기존 오픈소스 모델 (VACE, Phantom 등) 을 크게 상회하며, 폐쇄형 모델 (Kling, Vidu Q1) 과 유사하거나 더 나은 성능을 보였습니다.
- S2V 일관성 (Consistency): 0.723 (최고점)
- S2V 분리 (Decoupling): 0.319 (최고점, 배경 불필요 정보 제거 능력 우수)
- 얼굴 유사도 (Face Similarity): 인간 테스트셋에서 오픈소스 모델 중 가장 높은 점수를 기록했으며, 폐쇄형 모델 Kling 보다도 약간 더 높은 평균 점수를 달성했습니다.
정성적 평가: 사용자 연구 (User Study) 에서 비디오 품질, 프롬프트 정렬, 주제 일관성, 배경 분리 등 모든 항목에서 다른 모델들을 압도하는 선호도를 보였습니다.
애블레이션 연구:
- 크로스 페어링 데이터: 이를 제거할 경우 주제 일관성과 배경 분리 능력이 현저히 감소함을 확인했습니다.
- R-RoPE: 공간적 시프트 (Shift) 를 적용하지 않을 경우 참조 이미지 간의 혼란과 중첩이 발생하여 성능이 저하됨을 입증했습니다.

5. 의의 및 결론 (Significance)

Kaleido 는 오픈소스 커뮤니티가 다중 주제 참조 비디오 생성 분야에서 폐쇄형 상용 모델과 대등한 수준의 성능을 달성할 수 있음을 입증했습니다. 특히, **데이터의 질적 향상 (배경 분리 및 크로스 페어링)**과 **효율적인 조건 주입 메커니즘 (R-RoPE)**의 결합이 핵심 성공 요인입니다. 이 연구는 전자상거래, 광고, 디지털 휴먼 생성 등 다양한 산업 응용 분야에서 유연하고 통제 가능한 비디오 생성을 위한 강력한 기반을 제공하며, 향후 주제 기반 비디오 생성 연구의 새로운 표준을 제시합니다. 연구의 소스 코드와 학습된 모델 체크포인트는 오픈소스로 공개되어 있습니다.

Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model