Crab: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
O artigo apresenta o Crab+, um modelo unificado e escalável de compreensão de cenas áudio-visuais que supera o problema de transferência negativa através da criação do dataset AV-UIE v2 e da proposta do mecanismo I-LoRA, permitindo uma cooperação explícita entre tarefas heterogêneas e alcançando desempenho superior em 88% dos casos em comparação com abordagens de tarefa única.