Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

이 논문은 비디오 확산 모델의 초기 노이즈 선택을 개선하기 위해 모델 내부의 어텐션 불확실성을 정량화하여 고품질 시드를 선별하는 ANSE 프레임워크와 베이지안 어텐션 기반의 BANSA acquisition 함수를 제안합니다.

Kwanyoung Kim, Sanghyun Kim

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"비디오 생성 AI 가 더 좋은 영상을 만들 수 있도록, 시작점을 똑똑하게 골라주는 방법"**을 소개합니다.

기존의 AI 비디오 생성 기술은 마치 운에 의존하는 주사위 게임과 같았습니다. 같은 명령어 (예: "고양이가 피아노를 치는 영상") 를 입력해도, AI 가 처음에 무작위로 선택한 '시작 잡음 (Noise Seed)'에 따라 결과가 천차만별이었습니다. 어떤 시작점은 멋진 영상을 만들고, 어떤 시작점은 엉망진창인 영상을 만들어냈죠.

이 논문은 **"AI 가 스스로 '어떤 시작점이 가장 잘 될지'를 미리 감지해서, 가장 좋은 시작점을 골라주자"**는 아이디어를 제시합니다.


🎬 핵심 비유: "요리사의 재고실"

비디오 생성 AI 를 요리사라고 상상해 보세요.

  • 명령어 (Prompt): "매콤한 불고기 볶음밥 만들어줘"
  • 시작 잡음 (Noise Seed): 요리사가 재고실에서 꺼낸 **원재료 (쌀, 고기, 양념 등)**의 상태.

기존 방식은 재고실에서 무작위로 쌀 한 주머니를 꺼내서 요리를 시작했습니다. 운이 좋으면 맛있는 밥이 나오지만, 쌀이 썩어있거나 양념이 부족하면 맛이 형편없어집니다.

이 논문이 제안하는 **ANSE(Active Noise Selection)**는 다음과 같은 역할을 합니다:

"요리사 (AI) 가 재고실 문을 열기 전에, '어떤 쌀 주머니를 꺼내면 가장 맛있는 밥이 나올지'를 미리 냄새 맡고 판단하게 해주는 것"

🔍 어떻게 작동할까요? (BANSA 점수)

이 시스템의 핵심은 BANSA라는 도구입니다. 이를 **AI 의 '집중력 측정기'**라고 생각하면 쉽습니다.

  1. 혼란스러운 집중력 (높은 점수):
    AI 가 여러 번 시뮬레이션을 해봤을 때, "어디에 초점을 맞춰야 할지"가 매번 달라지고 헷갈린다면? (예: "고양이인지 사람인지 모르겠네", "피아노가 어디에 있지?")
    이건 불안정한 시작점입니다. 이걸로 만들면 영상이 흔들리거나 엉망이 될 가능성이 높습니다.

  2. 단단한 집중력 (낮은 점수):
    반대로 AI 가 시뮬레이션할 때마다 "고양이는 여기, 피아노는 저기"라고 똑같은 위치와 형태를 확신하며 집중한다면?
    이건 안정적인 시작점입니다. 이걸로 만들면 영상이 매끄럽고 명령어와 잘 맞습니다.

BANSA 점수는 바로 이 '혼란스러움'을 수치화한 것입니다.

  • 점수가 높을수록 = AI 가 헷갈려함 (나쁜 시작점)
  • 점수가 낮을수록 = AI 가 확신함 (좋은 시작점)

이 논문은 **"BANSA 점수가 가장 낮은 (AI 가 가장 확신하는) 시작점"**을 골라내서 영상을 만들게 합니다.

🚀 왜 이 방법이 특별한가요?

기존의 다른 방법들은 바깥에서 규칙을 정해줬습니다.

  • "저주파수 성분을 유지해라", "프레임 사이의 움직임을 부드럽게 해라" 같은 외부 규칙을 적용했습니다.
  • 하지만 이 방법은 AI 가 스스로 느끼는 '불안감'을 이용합니다. 마치 요리사가 "내 손맛을 믿고 이 재료를 써야겠다"라고 판단하는 것과 같습니다.

또한, 시간과 비용을 거의 들이지 않습니다.

  • 다른 방법들은 영상을 다 만들어보고 다시 수정하거나, 여러 번 다시 그리는 데 시간이 많이 걸렸습니다.
  • 하지만 이 방법은 영상을 그리는 첫 단계에서, AI 가 아주 잠깐 (한 번만) 집중력을 측정해서 좋은 시작점을 골라냅니다. 그 후엔 기존 AI 가 평소 하던 대로 영상을 그리기만 하면 됩니다.

💡 요약: "운이 아니라, 지능으로 시작하자"

이 연구는 비디오 생성 AI 에게 **"무작위로 시작하지 말고, 내가 가장 잘할 수 있는 시작점을 선택해라"**라고 가르친 것입니다.

  • 기존: 주사위를 던져서 운에 맡김.
  • 이 연구 (ANSE): AI 가 "이 시작점이 가장 확실해!"라고 판단해서 선택.

그 결과, 더 선명하고, 명령어에 더 잘 맞으며, 흔들림 없는 고품질 비디오를 훨씬 적은 비용으로 만들어낼 수 있게 되었습니다. 마치 운 좋은 요리사가 아니라, 실력 있는 요리사가 최고의 재료를 골라 요리를 하는 것과 같은 효과입니다.