Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

이 논문은 텍스트, 이미지, 참조 비디오 등 다양한 멀티모달 지시를 단일 모델에서 처리하여 비디오 생성 및 편집 작업을 통합적으로 수행하는 'Tele-Omni' 프레임워크를 제안합니다.

Jialun Liu, Tian Li, Xiao Cao, Yukuo Ma, Gonghu Shang, Haibin Huang, Chi Zhang, Xiangzhen Chang, Zhiyong Huang, Jiakui Hu, Zuoxin Li, Yuanzhi Liang, Cong Liu, Junqi Liu, Robby T. Tan, Haitong Tang, Qizhen Weng, Yifan Xu, Liying Yang, Xiaoyan Yang, Peng Yu, Shiwen Zhang, Xuelong Li

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

텔레-오니 (Tele-Oni): 비디오의 '만능 마법사'

이 논문은 **"텔레-오니 (Tele-Oni)"**라는 새로운 인공지능 시스템을 소개합니다. 기존의 비디오 생성 AI 들은 "텍스트만 입력하면 영상을 만들어주는 것"이나 "특정 작업 (예: 배경만 바꾸기) 만 하는 것"에 그쳤다면, 텔레-오니는 텍스트, 사진, 기존 영상을 모두 이해하고 하나의 모델로 모든 작업을 해내는 **'만능 비디오 마법사'**입니다.

이 복잡한 기술을 일상적인 언어와 비유로 쉽게 설명해 드릴게요.


1. 왜 이 기술이 필요한가요? (기존의 문제점)

지금까지의 비디오 AI 들은 마치 각자 다른 일을 하는 전문 공방들 같았습니다.

  • 텍스트로 영상 만들기 공방: 글만 주면 영상을 만들어주지만, "이 사진처럼 만들어줘"라고 하면 못 합니다.
  • 영상 편집 공방: "이 사람 얼굴만 바꿔줘"라고 하면 바꿔주지만, "새로운 영상을 만들어줘"는 못 합니다.

사용자는 원하는 작업마다 다른 프로그램을 켜고 복잡한 설정을 해야 했습니다. 마치 요리할 때 "볶음밥"은 한 냄비에서, "국"은 다른 냄비에서, "튀김"은 또 다른 팬에서 따로따로 만들어야 하는 것과 비슷합니다.

텔레-오니는 이 모든 것을 **하나의 거대한 '요리 대장'**에게 맡기는 것입니다. "이 사진의 사람처럼, 이 글씨에 나온 대로, 이 영상처럼 움직이는 요리를 만들어줘"라고 말하면, 그 대장이 모든 조건을 이해하고 한 번에 완성해 줍니다.

2. 텔레-오니는 어떻게 작동할까요? (두 명의 파트너)

텔레-오니는 두 명의 전문가가 팀을 이루어 작동합니다.

① '명령 해석관' (MLLM: 멀티모달 대형 언어 모델)

  • 역할: 사용자의 말을 듣고 무엇을 해야 할지 계획을 세우는 두뇌입니다.
  • 비유: 마치 건축 설계사영화 감독과 같습니다.
    • 사용자가 "이 사진 속 강아지를 우주로 보내줘"라고 말하면, 이 '설계사'는 "아, 강아지 (이미지) 를 우주 (텍스트) 로 보내는 편집 작업을 해야겠다"라고 이해합니다.
    • 하지만 이 설계사는 직접 벽돌을 쌓거나 영상을 만들지는 않습니다.他只是 (그저) **구체적인 지시서 (명령)**를 작성할 뿐입니다.

② '실무 제작자' (DiT: 확산 기반 생성 모델)

  • 역할: 설계사가 쓴 지시서를 보고 실제로 영상을 만들어내는 장인입니다.
  • 비유: 실제 건축 현장의 일꾼이나 특수 효과 (VFX) 아티스트입니다.
    • 설계사의 지시서를 받아 "여기에 강아지를 넣고, 배경을 우주로 바꾸고, 움직임은 자연스럽게"라고 지시받으면, 실제로 픽셀 하나하나를 다듬어 영상을 완성합니다.

이 두 명이 **연결고리 (어댑터)**로 이어져 있어서, 설계사의 아이디어가 일꾼에게 정확히 전달되어 혼란 없이 작업이 이루어집니다.

3. 어떤 마법 같은 일들을 할 수 있나요?

텔레-오니는 하나의 시스템으로 다음과 같은 다양한 일을 해냅니다.

  • 글로 영상 만들기 (Text-to-Video): "해변에서 노을이 지는 장면을 만들어줘"라고 말하면 바로 영상을 만듭니다.
  • 사진으로 영상 만들기 (Image-to-Video): 정지된 사진 하나를 주면, 그 사진 속 인물이 움직이는 영상을 만들어줍니다.
  • 시작과 끝을 정해 영상 만들기 (First-Last Frame): "시작은 앉은 사람, 끝은 일어서는 사람"이라고 두 장의 사진을 주면, 그 사이의 움직임을 자연스럽게 채워줍니다.
  • 맥락에 따른 편집 (In-Context Editing):
    • 삭제: 영상 속의 특정 물체 (예: 쓰레기통) 를 지우고 그 자리에 배경을 자연스럽게 채워줍니다. (유령처럼 남지 않음)
    • 추가: "이 자리에 빨간 우유통을 넣어줘"라고 하면, 우유통이 영상 속 환경에 맞춰 자연스럽게 움직이며 들어갑니다.
    • 스타일 변경: "이 영상을 만화 스타일로 바꿔줘"라고 하면, 등장인물의 얼굴은 그대로 유지하면서 전체적인 색감과 선을 만화처럼 바꿉니다.

4. 왜 이것이 특별한가요? (핵심 기술의 비밀)

기존 기술들은 각 작업마다 별도의 공정을 거쳤다면, 텔레-오니는 데이터를 정리하는 방식에서 혁신을 이루었습니다.

  • 비유: 기존 방식은 '볶음밥', '국', '튀김'을 각각 다른 레시피북에 따로 적어두고 있었습니다. 하지만 텔레-오니는 모든 레시피를 하나의 '만능 요리책'으로 통합했습니다.
  • 작동 원리: 다양한 작업 (생성, 편집, 수정) 을 모두 구조화된 명령 형식으로 변환합니다. AI 는 "이건 편집 작업이야", "저건 생성 작업이야"라고 따로 구분하지 않아도, 입력된 명령의 형태와 내용만 보고 "아, 이 상황에서는 이렇게 행동해야겠다"라고 스스로 추론합니다.

5. 결론: 미래의 비디오 제작은 어떻게 변할까요?

텔레-오니는 **"복잡한 기술 없이, 누구나 원하는 대로 비디오를 만들고 편집할 수 있는 시대"**를 열었습니다.

예전에는 전문 편집자가 수시간을 들여야 했던 작업도, 이제는 **"이 사진처럼, 이 글처럼, 이 영상처럼"**이라고 말하기만 하면 AI 가 알아서 모든 것을 해결해 줍니다. 마치 마법 지팡이를 휘두르면 원하는 세상이 바로 펼쳐지는 것과 같습니다.

이 기술은 앞으로 영화 제작, 광고, 교육, 그리고 일상적인 콘텐츠 제작 방식을 완전히 바꿔놓을 **'차세대 비디오 생성의 핵심'**이 될 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →