Crab: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
음시각적 작업의 이질성으로 인한 부정적 전이를 해결하기 위해 명시적 추론이 포함된 대규모 데이터셋 (AV-UIE v2) 과 작업 간 상호작용을 동적으로 조정하는 I-LoRA 아키텍처를 제안하여, 단일 작업 학습을 능가하는 포괄적인 오디오 - 비주얼 장면 이해 모델 Crab를 개발했습니다.