MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models
El paper introduce MUGEN, un benchmark integral que revela las limitaciones actuales de los modelos de audio-idioma en la comprensión de múltiples audios simultáneos y demuestra que estrategias de inferencia sin entrenamiento, como la autoconsistencia permutacional y el razonamiento en cadena, mejoran significativamente su rendimiento.