Crab: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
Das Paper stellt Crab⁺ vor, ein skalierbares und einheitliches Audio-Visuelles Large Language Model, das durch den neuen AV-UIE v2-Datensatz mit expliziten Schlussfolgerungsprozessen und die Interaktionsbewusste LoRA (I-LoRA) mit dynamischem Routing die Problematik negativen Transfers bei der gemeinsamen Ausbildung heterogener Aufgaben löst und so in fast 88 % der Fälle positive Transferwirkungen erzielt.