Crab+^{+}: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

음시각적 작업의 이질성으로 인한 부정적 전이를 해결하기 위해 명시적 추론이 포함된 대규모 데이터셋 (AV-UIE v2) 과 작업 간 상호작용을 동적으로 조정하는 I-LoRA 아키텍처를 제안하여, 단일 작업 학습을 능가하는 포괄적인 오디오 - 비주얼 장면 이해 모델 Crab+^{+}를 개발했습니다.

Dongnuan Cai, Henghui Du, Chang Zhou, Xi Chen, Dan Guo, Hongyuan Zhang, Xuelong Li, Di Hu

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🦀 크랩 플러스 (Crab+): 소리와 영상을 동시에 이해하는 '만능 요리사'

1. 문제점: 왜 기존 AI 는 혼란스러워할까요?

기존의 AI 들은 보통 "한 가지 일만 잘하는 전문가"였습니다. 예를 들어, '소리를 듣는 AI'와 '영상을 보는 AI'는 따로 훈련되었습니다.

하지만 연구자들은 "하나의 AI 가 모든 일을 다 하면 어떨까?"라고 생각했습니다. 그런데 문제는 혼합 요리를 만들려다 실패하는 것과 같았습니다.

  • 비유: 한 요리사에게 "초밥을 만들고, 스테이크를 굽고, 케이크를 장식하라"고 동시에 시켰다고 상상해 보세요. 초밥을 만들 때 필요한 손놀림과 스테이크를 굽는 손놀림은 서로 다릅니다. 두 가지 일을 동시에 하려니 서로 방해가 되어 (이를 **'부정적 전이'**라고 합니다), 초밥도 맛이 없고 스테이크도 태워버리는 결과가 나옵니다.
  • 현실: 기존 연구에 따르면, 여러 일을 한 번에 시키자 AI 의 성능이 오히려 55% 정도 떨어지는 일이 발생했습니다.

2. 해결책 1: 데이터 (재료) 를 다듬다 - "AV-UIE v2"

크랩 플러스는 이 문제를 해결하기 위해 먼저 **데이터 (재료)**를 바꿨습니다.

  • 비유: 단순히 "초밥, 스테이크, 케이크"라는 이름만 적힌 레시피를 주는 대신, **"왜 이렇게 해야 하는지, 어떤 순서로 해야 맛있는지"**에 대한 상세한 **설명 (추론 과정)**을 함께 적어주었습니다.
  • 효과: AI 가 "아, 소리를 들을 때는 이렇게 집중해야 하고, 영상을 볼 때는 저렇게 봐야구나"라고 각 작업의 차이를 명확히 이해하게 되었습니다. 이를 통해 서로 다른 작업들 사이의 연결고리를 만들었습니다.

3. 해결책 2: 모델 (요리사) 을 업그레이드 - "I-LoRA"

다음으로 AI 의 **뇌 구조 (모델)**를 개선했습니다.

  • 기존 방식: 모든 작업에 똑같은 '도구'를 사용하는 고정된 방식이었습니다.
  • 크랩 플러스의 방식 (I-LoRA): **"지능형 도우미"**를 도입했습니다.
    • 비유: 요리사가 일을 시작할 때, **"이제 초밥을 만들 때는 A 도구를 쓰고, 스테이크를 구울 때는 B 도구를 써라"**라고 상황에 따라 도구를 바꿔주는 스마트 스위치가 달린 것입니다.
    • 작동 원리: 이 '스마트 스위치 (라우터)'는 들어오는 질문의 종류를 보고, 가장 적합한 '전문가 팀 (LoRA 헤드)'을 자동으로 호출합니다. 그래서 서로 다른 작업들이 서로의 일을 방해하지 않고, 각자의 전문성을 살려 협력할 수 있게 됩니다.

4. 결과: 1+1=3 의 시너지

이 두 가지 변화 (데이터의 상세한 설명 + 지능형 도구 교체) 를 통해 크랩 플러스는 놀라운 성과를 거두었습니다.

  • 기존: 여러 일을 같이 하려다 55% 가 망가짐.
  • 크랩 플러스: 여러 일을 같이 하려니 88% 의 작업에서 오히려 더 잘하게 됨!
  • 비유: 이제 이 요리사는 초밥, 스테이크, 케이크를 동시에 만들면서도 각각의 맛을 완벽하게 살려냅니다. 심지어 혼자서 하나씩 할 때보다 더 빠르고 맛있게 만들기도 합니다.

5. 실제 능력 (예시)

이 모델은 하나의 영상과 소리를 보고 다음과 같은 다양한 일을 동시에 해냅니다.

  • 질문: "왼쪽 악기가 오른쪽보다 소리가 더 큰가?" (이해와 추론)
  • 위치 찾기: "소리가 나는 물체의 위치를 화면에 표시해 줘." (공간 인식)
  • 감정 분석: "이 사람의 표정과 목소리를 보고 감정이 뭐야?" (감정 읽기)
  • 이벤트 설명: "이 영상에서 0 초부터 10 초 사이에 무슨 일이 일어났어?" (시간적 이해)

📝 한 줄 요약

**"크랩 플러스"**는 소리와 영상을 동시에 이해하는 AI 가 여러 일을 할 때 서로 방해받지 않고, 오히려 서로 도와주며 더 똑똑해지는 방법을 찾아낸 혁신적인 모델입니다. 마치 "혼란스러운 주방을 정리하고, 상황에 맞는 도구를 쥐어주어 요리사 (AI) 가 모든 요리를 완벽하게 해내게 만든 것"과 같습니다.