MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models
Dit paper introduceert MUGEN, een benchmark die de beperkingen van grote audio-taalmodellen bij het verwerken van meerdere simultane audio-invoeren blootlegt en aantoont dat trainingsvrije strategieën zoals Audio-Permutational Self-Consistency de prestaties aanzienlijk verbeteren.