AV-Unified: A Unified Framework for Audio-visual Scene Understanding

이 논문은 다양한 오디오 - 비주얼 태스크의 입력과 출력을 이산 토큰 시퀀스로 표준화하고, 다중 스케일 시공간 감지 네트워크와 교차 모달 가이드를 통해 단일 아키텍처로 통합 학습하는 'AV-Unified' 프레임워크를 제안하여 복잡한 오디오 - 비주얼 장면 이해를 가능하게 합니다.

Guangyao Li, Xin Wang, Wenwu Zhu

게시일 2026-03-09
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎧👁️ "AV-Unified": 귀와 눈을 하나로 묶은 '만능 감각 통역사'

이 논문은 우리가 세상을 볼 때와 들을 때, 뇌가 어떻게 소리와 영상을 자연스럽게 연결하는지 모방한 새로운 인공지능 모델인 **'AV-Unified'**를 소개합니다.

기존의 인공지능들은 소리를 분석하는 일, 영상을 자르는 일, 소리가 나는 곳을 찾는 일 등을 각각 따로따로 배웠습니다. 마치 한 사람은 요리만 하고, 다른 사람은 청소만 하고, 또 다른 사람은 운전만 하는 상황과 비슷하죠. 하지만 인간은 이 모든 일을 동시에, 하나의 흐름으로 처리합니다.

이 논문은 **"왜 각각 따로 배우지, 하나로 통합해서 배울 수 없을까?"**라는 질문에서 시작합니다.


🌟 핵심 아이디어: "모든 일을 하나의 언어로 번역하자"

1. 문제점: 각자 다른 언어를 쓰는 팀원들

기존 AI 모델들은 각자 다른 일을 할 때 서로 다른 방식 (포맷) 을 사용했습니다.

  • 소리가 나는 시간을 찾을 때는 "시작 3 초, 끝 5 초"라고 말합니다.
  • 소리가 나는 곳을 찾을 때는 "화면 왼쪽 하단"이라고 말합니다.
  • 무엇이 소리를 냈는지를 찾을 때는 "기타"라고 말합니다.

이렇게 각자 다른 언어를 쓰니, 하나의 모델이 모든 일을 동시에 배우기 힘들었습니다. 마치 서로 다른 언어를 쓰는 팀원들이 한 방에 모여서 프로젝트를 진행하는 것처럼 비효율적이었죠.

2. 해결책: "모든 것을 '문장'으로 바꾸는 마법"

AV-Unified 는 이 문제를 해결하기 위해 모든 입력과 출력을 '문장 (시퀀스)'이라는 하나의 공통 언어로 변환했습니다.

  • 비유: 마치 모든 직원이 **영어 (Token)**만 할 수 있도록 훈련시킨 것과 같습니다.
    • "소리가 3 초에서 5 초까지 난다" → "소리가 3 초에 시작해서 5 초에 끝났다"라는 문장으로.
    • "왼쪽에서 기타 소리가 난다" → "왼쪽에 기타가 있다"라는 문장으로.
    • "기타가 어디에 있니?" → "기타의 위치는?"이라는 질문으로.

이제 AI 는 **하나의 모델 (하나의 두뇌)**로 모든 일을 처리할 수 있게 되었습니다.


🛠️ 어떻게 작동할까요? (3 가지 핵심 도구)

AV-Unified 는 세 가지 특별한 장비를 갖추고 있습니다.

1. 🕰️ 다양한 시간 감각을 잡는 '멀티 스케일 시계' (Temporal Perception)

세상에는 짧은 소리 (박수) 도 있고, 긴 소리 (노래) 도 있습니다.

  • 비유: 기존 AI 는 초시계만 들고 있어서 1 초 단위의 짧은 사건은 잘 잡지만, 10 초가 걸리는 긴 사건은 놓치기 일쑤였습니다.
  • AV-Unified: 초시계, 시계, 달력을 모두 들고 있습니다. 그래서 1 초짜리 짧은 소리도, 1 분짜리 긴 연주도 모두 정확히 시간의 흐름에 따라 파악합니다.

2. 👁️👂 소리와 영상을 서로 가르쳐 주는 '쌍방향 나침반' (Spatial Perception)

소리가 나는 곳을 찾는 것은 어렵습니다. 소리는 들리지만, 화면에서는 어디인지 알기 힘들기 때문이죠.

  • 비유: 기존 모델은 눈만 가린 채 소리를 듣고 "어디서 들렸지?"라고 추측하거나, 귀를 막고 "저기 움직이는 게 소리를 냈나?"라고 추측했습니다.
  • AV-Unified: 눈과 귀가 서로 대화합니다.
    • "귀가 들리는 소리가 '기타'라면, 눈은 '기타 모양'을 찾아봐!"
    • "눈이 '기타'를 봤다면, 귀는 '기타 소리'를 집중해서 들어봐!"
    • 이렇게 서로를 도와주며 정확한 위치를 찾아냅니다.

3. 📝 "무엇을 할지" 알려주는 '작업 지시서' (Task Prompt)

하나의 모델이 여러 일을 할 때, 혼란스러울 수 있습니다.

  • 비유: 요리사에게 "오늘은 뭐 할 거야? 국 끓일래? 볶음밥 할래?"라고 물으면 당황합니다. 하지만 **"오늘은 볶음밥 해!"**라고 명확히 말해주면 집중합니다.
  • AV-Unified: AI 에게 "오늘은 소리가 나는 시간을 찾아줘" 혹은 **"오늘은 소리가 나는 곳을 찾아줘"**라고 **명령어 (프롬프트)**를 입력합니다. AI 는 이 명령을 보고, 필요한 정보만 집중해서 처리합니다.

🏆 결과는 어떨까요?

이 모델은 여러 가지 시험 (벤치마크) 에서 뛰어난 성과를 냈습니다.

  • 소리가 언제 시작하고 끝나는지 찾는 일 (AVE, LLP)
  • 소리가 나는 물체의 위치를 찾는 일 (SSL)
  • 소리가 나는 물체의 모양을 그림으로 그리는 일 (AVS)
  • 영상에 대한 질문에 답하는 일 (AVQA)

기존에 따로따로 만들었던 모델들보다 더 똑똑하고, 특히 **복잡한 상황 (예: 여러 악기가 동시에 연주할 때)**에서 서로의 정보를 활용해 더 정확한 답을 냈습니다.


💡 요약: 왜 이것이 중요한가요?

이 연구는 **"인공지능이 인간처럼 통합적으로 세상을 이해할 수 있는 첫걸음"**입니다.

앞으로 우리는 소리와 영상을 따로 분석하는 AI 가 아니라, **"이 소리가 어디서, 언제, 무엇을 통해 나는지"**를 한 번에 이해하는 만능 감각 통역사를 만나게 될 것입니다. 이는 로봇이 우리와 더 자연스럽게 대화하거나, 시각 장애인을 위한 더 정교한 보조 기기를 만드는 데 큰 도움이 될 것입니다.

한 줄 요약:

"AV-Unified 는 소리와 영상을 각각 따로 배우게 하던 AI 를, 하나의 언어로 모든 일을 동시에 배우는 천재로 만들어주었습니다."