Crab: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
El modelo Crab aborda el problema de la transferencia negativa en la comprensión unificada de escenas audio-visuales mediante un conjunto de datos de instrucción con razonamiento explícito y un mecanismo de LoRA interactivo que coordina dinámicamente las tareas heterogéneas, logrando así un rendimiento superior en la mayoría de las tareas en comparación con los enfoques de entrenamiento único.