Lumos-1: On Autoregressive Video Generation with Discrete Diffusion from a Unified Model Perspective

본 논문은 1D RoPE 의 한계를 극복하기 위해 MM-RoPE 를 도입하고, 비효율적인 다음 토큰 디코딩 문제를 해결하기 위해 프레임 간 손실 불균형을 보정하는 자기회귀 이산 확산 강제 기법을 적용하여, 제한된 컴퓨팅 자원으로도 기존 최첨단 모델들을 능가하는 성능을 달성한 통합형 자기회귀 비디오 생성 모델 'Lumos-1'을 제안합니다.

Hangjie Yuan, Weihua Chen, Jun Cen, Hu Yu, Jingyun Liang, Shuning Chang, Zhihui Lin, Tao Feng, Pengwei Liu, Jiazheng Xing, Hao Luo, Jiasheng Tang, Fan Wang, Yi Yang

게시일 2026-03-17
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

Lumos-1: 비디오를 만드는 '마법의 책' 이야기

안녕하세요! 오늘 소개해 드릴 논문은 **'Lumos-1'**이라는 이름의 새로운 인공지능에 대한 것입니다. 이 AI 는 텍스트를 입력하면 동영상을 만들어내는 능력을 가지고 있습니다. 마치 해리포터의 '루모스 (Lumos)' 마법처럼, 어두운 화면을 밝히고 상상력을 현실로 끌어내는 마법 같은 기술이에요.

이 기술이 왜 특별하고 어떻게 작동하는지, 복잡한 수식 없이 일상적인 비유로 설명해 드릴게요.


1. 왜 이 기술이 필요한가요? (기존의 문제점)

과거의 비디오 생성 AI 들은 마치 매우 느린 독서 선생님과 같았습니다.

  • 한 글자씩 읽기 (Next-token decoding): 문장을 만들 때 "사과"라고 말하면, 그다음 "가"를, 그다음 "다"를 순서대로 하나씩 만들어냈어요. 비디오를 만들 때도 프레임 (화면) 을 하나씩 순서대로 그리기 때문에 시간이 매우 오래 걸렸죠.
  • 별개의 시스템: 언어를 이해하는 AI 와 영상을 만드는 AI 가 따로 놀아서, 두 시스템을 합치려면 복잡한 공사가 필요했어요.

Lumos-1은 이 문제를 해결하기 위해 **LLM(거대 언어 모델)**이라는 '만능 두뇌'를 비디오 제작에 적용했습니다. 하지만 단순히 언어 모델을 비디오에 넣는다고 해서 잘 되는 게 아니에요. 두 가지 큰 장벽이 있었죠.


2. Lumos-1 의 마법 비법 1: "시간과 공간의 나침반" (MM-RoPE)

AI 가 비디오를 이해하려면 '시간 (시간의 흐름)'과 '공간 (화면의 위치)'을 동시에 파악해야 합니다. 기존 AI 들은 이 나침반을 잘못 들고 있었어요.

  • 기존의 나침반 (1D RoPE): 책의 페이지 번호만 알려주는 나침반이에요. "1 페이지, 2 페이지..."만 알지, 책장 속의 그림이 위쪽인지 아래쪽인지, 시간이 흐르면서 어떻게 변하는지는 모릅니다.
  • 나쁜 3D 나침반 (Naive 3D RoPE): 시간, 높이, 너비를 모두 알려주려고 했지만, **주파수 (정보의 세밀함)**가 고르지 못했어요. 마치 라디오 주파수를 조절할 때, '시간' 소리는 너무 크게, '공간' 소리는 너무 작게 들려서 소리가 찢어지는 것과 같았죠.

Lumos-1 의 해결책: MM-RoPE (마법의 나침반)
이것은 균형 잡힌 나침반입니다.

  • 균형 잡힌 주파수: 시간, 높이, 너비 모든 정보를 골고루, 그리고 정교하게 처리할 수 있도록 주파수를 재배치했습니다.
  • 확대경 효과: 텍스트와 영상의 크기가 다르기 때문에 (텍스트는 길고 영상은 짧음), 이 나침반은 영상의 위치 정보를 텍스트와 잘 어울리도록 **적절히 확대 (Scaling)**해줍니다.
  • 결과: AI 는 이제 "이 장면에 3 초 뒤에는 어떤 변화가 일어나고, 화면 오른쪽 위에는 무엇이 있을지"를 아주 정확하게 예측할 수 있게 되었습니다.

3. Lumos-1 의 마법 비법 2: "한 번에 다 그리는 화가" (AR-DF)

기존 방식은 한 번에 한 줄씩 그림을 그리는 화가처럼 느렸습니다. Lumos-1 은 화면 전체를 동시에 그리고 수정하는 화가처럼 작동합니다. 이를 위해 '이산 확산 (Discrete Diffusion)' 기술을 사용했습니다.

  • 문제: "뒷구멍으로 훔쳐보기" (Loss Imbalance)

    • AI 가 비디오를 만들 때, 10 번째 장면을 그릴 때 1~9 번째 장면을 이미 다 알고 있습니다. 그래서 AI 는 "앞장면을 베끼면 되겠네"라고 생각하며 게으름을 피우기 쉽습니다. (정보 누출)
    • 이러면 AI 는 앞부분은 잘 그리지만, 시간이 지날수록 영상이 뻔해지고 움직임이 부자연스러워집니다.
  • 해결책: "타임 튜브 가림막" (Temporal Tube Masking)

    • Lumos-1 은 훈련할 때 특이한 가림막을 씌웁니다. 1 번째 장면의 특정 부분을 가렸다면, 10 번째 장면의 똑같은 위치도 함께 가립니다.
    • 비유: 마치 10 초 뒤의 장면을 그릴 때, 1 초 전의 장면을 보지 못하게 가리고, 대신 "이전 장면의 흐름을 기억해서 추론해라!"라고 강요하는 것입니다.
    • 추론 (실제 생성) 시: AI 가 그림을 그릴 때도, 마치 훈련할 때처럼 일부만 가린 상태로 그림을 완성합니다. 이렇게 하면 AI 는 앞장면을 단순히 복사하지 않고, 진짜로 시간의 흐름과 움직임을 학습하게 됩니다.

4. Lumos-1 의 성과: 적은 비용, 큰 성과

이 모든 마법을 합쳐서 Lumos-1 은 놀라운 결과를 냈습니다.

  • 효율성: 다른 거대 모델들이 수천 개의 GPU 를 쓰고 수억 개의 데이터를 쓸 때, Lumos-1 은 48 개의 GPU6 천만 개의 이미지/1 천만 개의 비디오만으로 훈련되었습니다. (약 1000 분의 1 수준의 비용!)
  • 성능: 텍스트로 이미지를 만드는 것 (T2I), 이미지로 비디오를 만드는 것 (I2V), 텍스트로 비디오를 만드는 것 (T2V) 모두에서 최상위권 성능을 보여줍니다.
  • 유연성: 텍스트 설명을 입력하면, "붉은 옷을 입은 스키어가 눈 덮인 산을 내려온다"거나 "새가 나뭇가지를 물어와 둥지를 짓는다"는 등 복잡한 장면도 자연스럽게 만들어냅니다.

요약: Lumos-1 이란 무엇인가?

Lumos-1 은 **"비디오를 만드는 데 특화된 언어 모델"**입니다.

  1. 나침반을 고쳐서 (MM-RoPE): 시간과 공간의 흐름을 정확히 이해하게 했습니다.
  2. 그림 방식을 바꾼서 (AR-DF): 한 줄씩 그리는 게 아니라, 전체를 동시에 보고 수정하며 움직임을 자연스럽게 만들게 했습니다.
  3. 효율을 높여서: 적은 비용으로도 최고의 품질을 냈습니다.

이 기술은 앞으로 우리가 상상하는 모든 영상을 AI 가 쉽고 빠르게 만들어주는 **'만능 영상 제작 스튜디오'**의 시초가 될 것입니다. 마치 해리포터가 마법 지팡이로 빛을 내듯, Lumos-1 은 텍스트라는 주문으로 생동감 넘치는 영상을 만들어내는 마법 지팡이 같은 존재입니다!

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →