VDCook:DIY video data cook your MLLMs

이 논문은 자연어 쿼리와 가변적 파라미터를 통해 실시간 영상 검색과 생성을 자동화하고, MCP 기반의 지속적 데이터 유입으로 동적 진화하는 오픈 생태계를 구축하여 MLLM 훈련용 전문 영상 데이터셋 제작의 장벽을 낮추는 'VDCook' 플랫폼을 제안합니다.

Chengwei Wu

게시일 Mon, 09 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 VDCook: 당신의 맞춤형 비디오 데이터 요리사

이 논문은 VDCook이라는 새로운 시스템을 소개합니다. 쉽게 말해, 이 시스템은 "AI 모델이 배워야 할 비디오 데이터를 직접 요리해 주는 자동화된 주방" 같은 것입니다.

기존의 방식과 VDCook 의 차이점을 이해하기 위해, **'레시피'와 '식자재'**에 비유해 설명해 드리겠습니다.


1. 기존 방식 vs VDCook: "통조림" vs "신선한 요리"

  • 기존 방식 (통조림):
    과거에는 연구자들이 비디오 데이터를 만들 때, 인터넷에서 영상을 긁어와서 한 번에 대량으로 가공한 뒤 **'완성된 통조림'**처럼 딱딱하게 포장해서 배포했습니다.

    • 문제점: 통조림은 한 번 열면 내용물이 고정되어 있습니다. 만약 "오늘은 매운 국물이 필요해!"라고 원해도, 이미 만들어진 통조림은 바꿀 수 없습니다. 또한, 특정 지역 (예: 한국) 이나 특수한 상황 (예: 눈 오는 날의 도로) 에 맞는 통조림을 찾으려면 처음부터 다시 만들어야 하는 번거로움이 있었습니다.
  • VDCook 방식 (신선한 요리):
    VDCook 은 **"요리사 (시스템)"**가 상주하는 주방입니다. 연구자가 "매운맛의 한국 도로 영상 100 개, 그리고 눈이 오는 장면도 섞어줘"라고 말하면 (자연어 요청), VDCook 이 바로 그 요구에 맞춰 실시간으로 영상을 찾아내고, 필요하면 AI 가 새로운 장면을 만들어내어 오늘의 메뉴를 즉석에서 요리해 줍니다.

2. VDCook 이 어떻게 작동하나요? (주방의 3 단계)

이 시스템은 크게 세 가지 단계로 작동합니다.

① 식자재 수집 (자동 수확 & 주문)

  • 자동 수확 (MCP): 인터넷이라는 거대한 농장에서 연구자가 원하는 키워드 (예: "자전거 타는 강아지") 를 입력하면, 로봇이 자동으로 영상을 찾아옵니다.
  • 주문 (사용자 업로드): 연구자 자신이 가진 비공개 영상도 가져와서 섞을 수 있습니다.
  • 특징: 이 과정은 한 번으로 끝나는 게 아니라, 계속 새로운 식자재가 들어와서 주방이 항상 신선하게 유지됩니다.

② 손질과 라벨링 (재료 분석)

찾아온 영상은 바로 요리하지 않고, 먼저 정밀하게 손질합니다.

  • 자동 분석: "이 영상은 사람이 몇 명 나오나?", "텍스트가 많이 보이니?", "카메라가 흔들리나?", "장면이 얼마나 역동적인가?" 등을 AI 가 자동으로 체크합니다.
  • 중요한 철학: 기존 방식은 "조건에 안 맞으면 버린다"고 했지만, VDCook 은 **"조건에 안 맞더라도 라벨만 잘 붙여두자"**고 합니다. 나중에 "아, 흔들리는 게 필요했네?"라고 생각하면 다시 꺼내 쓸 수 있도록 모든 정보를 저장해 둡니다.

③ 요리 (데이터 조리)

이제 연구자의 주문대로 요리를 시작합니다.

  • 검색과 조합: 필요한 장면을 찾아 모으고, 필요한 양만큼 합칩니다.
  • 가상 재료 추가 (생성): 만약 "눈 오는 도로" 영상이 너무 적다면, AI 가 기존 영상을 바탕으로 새로운 눈 오는 장면을 만들어냅니다. (이것은 '긴 꼬리' 데이터, 즉 드문 상황을 채워주는 역할입니다.)
  • 완성: 최종적으로 연구자가 원하는 형식의 데이터 패키지와, 이 데이터가 어디서 왔는지, 어떻게 만들었는지 기록된 **요리 레시피 (노트북)**를 함께 제공합니다.

3. 왜 이것이 중요한가요? (실제 사례)

이 시스템은 다양한 분야에서 빛을 발합니다.

  • 드문 상황 (Long-Tail): 일반적인 영상에는 없는 '도로 침수', '건설 현장의 덤프트럭', '폐 CT 영상' 같은 드문 상황도 쉽게 요리할 수 있습니다.
  • 예술적 스타일: '한국 전통 수묵화 스타일'의 영상을 만들고 싶다면, 실제 영상이 부족해도 AI 가 수묵화 스타일의 영상을 만들어내어 학습 데이터를 채워줍니다.
  • 실험 결과: 연구팀은 이 시스템으로 만든 '수묵화 데이터'로 AI 모델을 훈련시켰더니, 기존 모델보다 훨씬 아름다운 수묵화 스타일의 영상을 만들어내는 것을 확인했습니다.

4. 핵심 요약: VDCook 의 3 가지 비결

  1. 필터링은 나중에: 데이터를 버리기보다, 모든 정보를 라벨로 남긴 뒤 나중에 필요할 때 골라쓰는 유연함을 제공합니다.
  2. 살아있는 생태계: 한 번 만들어서 끝나는 게 아니라, 새로운 데이터와 AI 의 발전에 따라 계속 진화하고 업데이트됩니다.
  3. ** democratization (민주화):** 복잡한 데이터 구축 기술을 몰라도, 누구나 "자연어"로 주문만 하면 전문가 수준의 데이터를 만들 수 있게 됩니다.

결론

VDCook은 비디오 데이터를 **"한 번 만들어서 끝나는 제품"**이 아니라, **"필요할 때마다 요리해 주는 서비스"**로 바꿉니다. 마치 식당에서 메뉴를 주문하듯, 연구자나 기업은 자신에게 딱 맞는 AI 학습 데이터를 쉽고 빠르게 만들어낼 수 있게 된 것입니다. 이는 AI 가 더 똑똑하고, 다양한 상황을 이해할 수 있도록 돕는 거대한 인프라가 될 것입니다.