Helios: Real Real-Time Long Video Generation Model

헬리오스 (Helios) 는 단일 GPU 에서 실시간으로 분 단위의 장편 비디오를 생성하면서도 드래프팅 현상 없이 고품질을 유지하는 최초의 14B 비디오 생성 모델입니다.

Shenghai Yuan, Yuanyang Yin, Zongjian Li, Xinwei Huang, Xiao Yang, Li Yuan

게시일 2026-03-05
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

헬리오스 (Helios): "140 억 개의 뇌세포"를 가진 실시간 비디오 마법사

이 논문은 **'헬리오스 (Helios)'**라는 새로운 인공지능 모델을 소개합니다. 이 모델은 단순히 짧은 영상을 만드는 것을 넘어, 수십 분에서 몇 시간 동안 이어지는 긴 영상을 실시간으로, 그리고 매우 자연스럽게 만들어내는 세계 최초의 140 억 파라미터 (14B) 모델입니다.

기존의 AI 영상 생성 기술이 가진 한계를 깨뜨린 헬리오스의 핵심 아이디어를 일상적인 비유로 설명해 드리겠습니다.


1. 헬리오스는 어떤 모델인가요? (속도와 품질의 기적)

상상해 보세요. 거대한 도서관 (140 억 개의 지식) 을 가진 천재 화가가 있습니다. 보통 이런 천재 화가는 그림 한 장을 그리는데 몇 시간이 걸립니다. 하지만 헬리오스는 단순한 스케치북 (작은 모델) 보다 훨씬 더 많은 지식을 가지고 있으면서도, 그림을 그리는 속도는 그보다 훨씬 빠릅니다.

  • 기존의 문제: 다른 140 억 파라미터 모델들은 1 초에 0.3 장 정도만 그립니다 (매우 느림). 반면, 헬리오스는 1 초에 19.5 장을 그립니다. 이는 140 억 모델이면서 130 억 배나 빠른 속도를 내는 것과 같습니다.
  • 비유: 마치 F1 레이싱카 엔진을 달고 있지만, 연료 효율은 자전거만큼 좋은 차를 만든 것과 같습니다.

2. 긴 영상을 만들 때 생기는 '기억 상실증' (드리프트) 을 어떻게 해결했나요?

AI 가 긴 영상을 만들 때 가장 큰 문제는 **'드리프트 (Drift)'**입니다. 이는 영화가 10 분 넘어가면 주인공 얼굴이 변하거나, 배경이 뭉개지거나, 이야기가 엉뚱한 방향으로 흘러가는 현상입니다.

기존 방법들은 이 문제를 해결하기 위해 "과거의 실수를 메모장에 적어두고 다시 확인한다 (Self-Forcing)"거나 "중요한 장면을 따로 저장한다"는 복잡한 방법을 썼습니다. 하지만 헬리오스는 아예 그런 복잡한 메모장 없이도 기억을 잃지 않습니다.

  • 해결책 1: 첫 번째 프레임을 '닻 (Anchor)'으로 사용
    • 비유: 배가 바다에서 표류하지 않도록 을 내리는 것과 같습니다. 헬리오스는 영상의 첫 번째 장면을 가장 중요한 '전체적인 분위기'를 잡는 닻으로 고정합니다. 시간이 지나도 이 닻이 있기 때문에 영상의 색감이나 분위기가 갑자기 변하지 않습니다.
  • 해결책 2: 과거의 기억을 '부정확하게' 훈련
    • 비유: 아이가 어릴 때 부모님이 "엄마가 실수할 수도 있으니, 엄마가 잘못 말해도 네가 스스로 판단해 봐"라고 가르치는 것과 같습니다. 헬리오스는 훈련할 때 과거의 영상에 일부러 노이즈 (흐릿함, 밝기 변화) 를 섞어서 가르칩니다. 이렇게 하면 실제 영상을 만들 때 과거의 영상이 완벽하지 않아도 AI 가 스스로 적응하며 흔들리지 않게 됩니다.

3. 어떻게 이렇게 빠른 속도를 낼 수 있나요? (압축의 미학)

140 억 파라미터 모델은 보통 컴퓨터 메모리를 너무 많이 차지해서 한 번에 많은 영상을 만들 수 없습니다. 헬리오스는 '압축' 기술을 통해 이 문제를 해결했습니다.

  • 과거의 기억을 요약하기 (Multi-Term Memory Patchification)
    • 비유: 10 년 전의 일기장을 다 읽을 필요는 없습니다. **어제 일 (단기 기억)**은 디테일하게, **어제보다 오래된 일 (중기 기억)**은 요약해서, **10 년 전 일 (장기 기억)**은 핵심 키워드만 기억하면 됩니다. 헬리오스는 과거의 영상을 이렇게 계층적으로 압축해서 기억합니다. 덕분에 메모리 사용량은 줄었지만, 중요한 정보는 모두 기억합니다.
  • 그림을 그리는 순서 바꾸기 (Pyramid Unified Predictor Corrector)
    • 비유: 거대한 벽화를 그릴 때, 처음부터 벽돌 하나하나를 세밀하게 그리지 않습니다. 먼저 **대략적인 윤곽 (저해상도)**을 그리고, 점점 중간 크기, 마지막으로 **정교한 디테일 (고해상도)**을 채워 넣습니다. 헬리오스는 이렇게 작은 것에서 큰 것으로 순서대로 그리기 때문에 계산량이 획기적으로 줄어듭니다.

4. 실시간으로 대화하듯 영상을 만들 수 있나요? (인터랙티브 생성)

헬리오스는 사용자가 영상 생성 도중에도 **"아니, 저기 배경을 바다로 바꿔줘"**라고 말하면 즉시 반영할 수 있습니다.

  • 비유: 다른 AI 들은 영화가 다 찍히고 나서 편집하는 식이라면, 헬리오스는 라이브 방송처럼 실시간으로 지시사항을 반영합니다. 사용자가 명령을 바꿀 때 영상이 갑자기 끊기거나 깜빡이지 않고, 자연스럽게 이어집니다.

5. 헬리오스의 핵심 요약

  1. 속도: 140 억 파라미터 모델이면서 1 초에 19.5 장 생성 (실시간).
  2. 길이: 수백 프레임 (수십 분) 이어도 주인공이 변하지 않고 일관된 영상 생성.
  3. 효율: 복잡한 메모리 관리나 특수 하드웨어 없이 일반 GPU(H100) 하나로도 작동.
  4. 유연성: 텍스트, 이미지, 기존 영상 모두를 입력받아 새로운 영상을 만들 수 있음.

결론

헬리오스는 **"거대한 지식을 가진 천재가, 자전거처럼 가볍고 빠르게, 그리고 오랫동안 기억력을 잃지 않고 그림을 그리는 기술"**이라고 할 수 있습니다. 이 기술은 게임 엔진, 인터랙티브 스토리텔링, 그리고 미래의 '가상 세계 (World Model)'를 만드는 데 핵심적인 역할을 할 것으로 기대됩니다.