VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs
El artículo presenta VoxEmo, un benchmark integral para la evaluación de modelos de lenguaje de voz en el reconocimiento de emociones, que aborda desafíos como la variabilidad de los prompts y la ambigüedad humana mediante un conjunto de datos multilingüe, un protocolo de etiquetas suaves y estrategias de consenso para alinear mejor los resultados generativos con la percepción subjetiva humana.