Crab: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
Il paper presenta Crab⁺, un modello unificato e scalabile per la comprensione audio-visiva che risolve il problema del trasferimento negativo attraverso il dataset AV-UIE v2 e l'architettura I-LoRA, permettendo un apprendimento multi-task che supera le prestazioni dei modelli specializzati in quasi l'88% dei casi.