VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

이 논문은 기존 비디오 생성 모델의 한계를 극복하기 위해, 시각적 질문 생성과 VLM 비판을 '의미적 기울기'로 활용하여 블랙박스 환경에서도 효율적으로 비디오 품질을 개선하는 다중 에이전트 프레임워크 'VQQA'를 제안합니다.

Yiwen Song, Tomas Pfister, Yale Song

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

VQQA: 비디오를 더 잘 만들게 도와주는 '현명한 비서' 팀

이 논문은 인공지능이 동영상을 만들 때 자주 겪는 실수를 스스로 고쳐서 더 멋진 영상을 만들어내는 새로운 방법, VQQA를 소개합니다.

기존의 AI 비디오 생성 기술은 "원하는 대로 만들어줘"라고 말하면 대충 만들어내는 경우가 많았습니다. 하지만 VQQA 는 단순히 영상을 만들어내는 것을 넘어, 만든 영상을 꼼꼼히 검사하고, 문제점을 찾아내어, 다시 더 잘 만들 수 있도록 지시하는 '현명한 비서 팀' 역할을 합니다.

이 과정을 쉽게 이해할 수 있도록 요리사미식가의 비유로 설명해 보겠습니다.


🎬 1. 문제점: "맛없는 요리를 계속 만들어내는 요리사"

지금까지의 AI 비디오 생성 모델 (요리사) 은 아주 재능이 있지만, 사용자의 복잡한 주문을 완벽하게 이해하지 못하거나 실수를 자주 합니다.

  • 예시: "빨간 차가 빠르게 달리는 영상"을 요청했는데, 차가 움직이지 않거나 바퀴가 뒤틀리는 경우가 많습니다.
  • 기존 방식의 한계:
    • 수동적인 점수판: 기존 기술은 영상을 만들고 "점수 60 점"이라고만 알려줍니다. "왜 60 점인가? 바퀴가 이상해서야?"라고 구체적으로 말해주지 않아 고쳐야 할 곳을 모릅니다.
    • 무작위 시도: "100 개를 만들어서 그중 가장 좋은 걸 고르는" 방식은 시간이 너무 많이 걸립니다.

🚀 2. VQQA 의 해결책: "질문하는 미식가 팀"

VQQA 는 이 문제를 해결하기 위해 **세 명의 AI 에이전트 (비서)**로 구성된 팀을 꾸립니다. 이 팀은 영상을 만드는 요리사와 함께 일하며, 질문과 답변을 통해 요리를 완벽하게 다듬습니다.

🕵️‍♂️ 1 단계: 질문 생성 (Question Generation) - "무엇을 물어볼까?"

  • 역할: 만들어진 영상을 보고, "이 영상에서 가장 중요한 부분이 뭐지?"라고 생각합니다.
  • 비유: 미식가가 "오늘 메뉴가 '빨간 차'인데, 차 색깔이 진짜 빨간지, 바퀴가 둥글게 잘 그려졌는지, 차가 실제로 움직이는지"를 확인하기 위해 **체크리스트 (질문)**를 만듭니다.
    • 예시 질문: "차의 바퀴가 0~100 점 중 몇 점 정도로 자연스럽게 움직였나요?"

🔍 2 단계: 질문 답변 (Question Answering) - "실제 점수 매기기"

  • 역할: 만든 질문들을 가지고 영상을 다시 꼼꼼히 살펴보고 점수를 매깁니다.
  • 비유: 미식가가 체크리스트를 보며 "바퀴가 20 점 (심하게 뒤틀림), 차 색깔은 90 점 (좋음)"이라고 구체적인 피드백을 남깁니다.
  • 핵심: 단순히 "나쁘다"가 아니라, **"어디가, 왜 나쁜지"**를 언어로 설명해 줍니다.

📝 3 단계: 프롬프트 수정 (Prompt Refinement) - "요리사에게 수정 지시"

  • 역할: 미식가 (질문 답변 에이전트) 가 남긴 구체적인 피드백을 보고, 요리사 (비디오 생성 AI) 에게 "다음엔 이렇게 해봐"라고 **새로운 주문서 (프롬프트)**를 작성합니다.
  • 비유: "바퀴가 뒤틀렸으니, '바퀴가 단단하게 고정된'이라는 표현을 추가해 줘"라고 지시합니다.
  • 결과: 요리사는 이 지시를 받아 다시 영상을 만듭니다.

🔄 3. 왜 이것이 특별한가요? (닫힌 고리 시스템)

이 과정은 한 번만 하는 것이 아니라, 영상이 완벽해질 때까지 반복됩니다.

  1. 영상을 만들고 →
  2. 질문을 만들어 →
  3. 문제를 찾아 →
  4. 지시를 내리고 →
  5. 다시 영상을 만듭니다.

이때 중요한 것은 의도 (Intent) 를 잃지 않는 것입니다. VQQA 는 마지막 단계에서 **전체적인 감시자 (Global Selection)**가 "이 영상은 원래 사용자가 원했던 '빨간 차'와 가장 잘 맞는가?"를 최종적으로 확인합니다. 만약 세부적인 수정을 하다가 원래 의도에서 너무 멀어지면, 그 영상은 버리고 가장 좋은 것을 선택합니다.

🌟 4. 실제 효과: "몇 번의 시도만으로 완벽하게"

논문 실험 결과, VQQA 는 기존 방식보다 **훨씬 적은 시도 (약 3~4 번)**로 훨씬 더 높은 품질의 영상을 만들었습니다.

  • 숫자 세기, 물리 법칙, 복잡한 상호작용 등 기존 AI 가 가장 힘들어하던 부분에서도 큰 개선을 보였습니다.
  • 블랙박스 방식: AI 모델의 내부 코드를 건드리지 않고, 오직 **자연어 (말)**만으로 소통하여 어떤 모델이든 적용 가능합니다.

💡 요약

VQQA 는 **"AI 가 영상을 만들면, AI 가 스스로 질문하고 답하며 문제를 찾아내고, 다시 더 잘 만들도록 지시하는 똑똑한 피드백 시스템"**입니다.

마치 요리사에게 "소금이 부족해"라고 말해주면, 요리사가 다시 소금을 넣고 맛을 본 후 완벽하게 완성하는 과정과 같습니다. 이제는 AI 가 만든 동영상을 단순히 기다리는 것이 아니라, AI 와 대화하며 원하는 대로 다듬을 수 있는 시대가 왔습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →