WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

이 논문은 텍스트, 오디오, 비디오 모달리티를 통합된 표현 공간으로 연결하고, 계층적 특징 융합 및 다중 작업 학습을 통해 교차 모달 검색과 프롬프트 인식 임베딩 생성을 가능하게 하는 새로운 LLM 기반 오디오 - 비주얼 임베딩 모델 'WAVE'를 제안하며, 다양한 벤치마크에서 최첨단 성능을 입증합니다.

Changli Tang, Qinfan Xiao, Ke Mei, Tianyi Wang, Fengyun Rao, Chao Zhang

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식: "각자 따로 통역하는 팀"

기존의 멀티모달 AI 들은 텍스트, 이미지, 소리, 영상을 각각 다른 전문가 (엔코더) 가 처리했습니다.

  • 상황: 영화 한 편을 보고 싶다고 칩시다.
  • 기존 AI: "대본 (텍스트) 은 A 팀이, 화면 (영상) 은 B 팀이, 배경음 (오디오) 은 C 팀이 따로따로 분석합니다. 그리고 나중에 이 세 팀의 결과를 억지로 합쳐서 의미를 찾습니다."
  • 문제점: 각 팀이 서로의 언어를 완벽히 이해하지 못해, "이 소리가 이 장면과 왜 어울리는지"를 깊이 있게 연결하기 어렵습니다.

2. WAVE 의 등장: "모든 것을 하나로 보는 만능 통역사"

WAVE 는 **LLM(대형 언어 모델)**이라는 거대한 두뇌 하나를 기반으로 합니다. 이 두뇌는 텍스트, 소리, 영상을 구분하지 않고 **하나의 공통된 언어 (임베딩 공간)**로 모두 변환합니다.

  • 비유: WAVE 는 마치 **"감각의 만능 번역기"**입니다.
    • 당신이 "비 오는 날의 우울한 영화"라고 말하면, WAVE 는 그 말의 의미를 이해하고 비 오는 소리어두운 화면을 동시에 떠올립니다.
    • 반대로, 비 오는 소리를 들려주면 "아, 이건 슬픈 영화의 장면이겠구나"라고 텍스트로 설명할 수도 있습니다.
    • 핵심: 텍스트 ↔ 오디오 ↔ 비디오 ↔ 오디오 + 비디오. 이 모든 것을 하나의 공간에서 자유롭게 오가게 합니다.

3. WAVE 가 특별하게 만든 두 가지 기술

① "층층이 쌓은 레고" (계층적 특징 융합)

AI 가 영상을 볼 때, 첫 번째 층에서는 "색깔"이나 "모양" 같은 단순한 것을 보고, 마지막 층에서는 "이야기"나 "감정" 같은 복잡한 것을 봅니다.

  • 기존 방식: 마지막 층의 결과만 가져와서 결론을 냈습니다. (상세한 정보가 빠질 수 있음)
  • WAVE 의 방식: 모든 층 (1 층부터 N 층까지) 에서 나온 정보를 모두 모아서 레고처럼 조립합니다.
    • 효과: "이 장면이 슬프다"는 감정 (상위 층) 과 "비가 내리고 있다"는 사실 (하위 층) 을 동시에 잡아서 훨씬 더 정확하고 풍부한 이해를 가능하게 합니다.

② "지시사항을 잘 듣는 귀" (프롬프트 인식)

기존 AI 는 무조건 같은 방식으로만 답을 내놓았습니다. 하지만 WAVE 는 사용자의 **지시 (프롬프트)**에 따라 답변을 바꿉니다.

  • 상황: "이 영상을 설명해 줘"라고 하면 일반적인 요약이 나옵니다.
  • WAVE: "이 영상에서 무덤과 관련된 물건은 뭐가 없지?"라고 질문하면, 질문에 맞춰 영상 속 무덤 관련 요소들만 집중해서 찾아냅니다.
  • 비유: 일반적인 AI 가 "사진을 보고 뭐가 있나?"라고 물으면 "개, 나무, 사람"이라고 나열한다면, WAVE 는 "개 중에서도 어떤 종류의 개가 있나?"라고 물으면 그걸 찾아냅니다. 사용자의 의도를 정확히 파악하는 똑똑한 비서입니다.

4. 왜 이것이 중요한가요? (실생활 예시)

이 기술이 발전하면 다음과 같은 일이 가능해집니다:

  1. 완벽한 검색: "비 오는 날 카페에서 듣기 좋은 재즈"라고 검색하면, 텍스트뿐만 아니라 비 오는 소리카페 배경음이 섞인 영상을 찾아줍니다.
  2. 질문형 검색: "이 영상에서 주인공이 왜 화가 났는지 알려줘"라고 물어보면, 영상 내용을 분석해 이유를 텍스트로 설명해 줍니다.
  3. 모든 것을 연결: 음악만 듣고 어떤 영화 장면이 떠오르는지, 혹은 영상만 보고 어떤 소리가 들릴지 예측하는 것이 가능해집니다.

5. 결론: "하나의 두뇌로 모든 감각을 다스리다"

WAVE 는 텍스트, 소리, 영상을 따로따로 처리하던 과거의 방식을 끝내고, 하나의 통합된 두뇌로 모든 감각을 이해하는 시대를 열었습니다.

  • 기존: 각자 다른 언어를 쓰는 팀들이 모여서 억지로 대화.
  • WAVE: 모든 감각을 하나의 언어로 말하고, 사용자의 질문에 맞춰 똑똑하게 대답하는 만능 통역사.

이 모델은 앞으로 우리가 영상, 소리, 글을 검색하고 이해하는 방식을 완전히 바꿔놓을 것으로 기대됩니다. 마치 모든 감각이 하나로 연결된 초능력을 가진 AI 가 등장한 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →