EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions
El artículo presenta EmoSURA, un nuevo marco de evaluación que supera las limitaciones de las métricas tradicionales y los jueces basados en LLM al descomponer las descripciones emocionales de voz en unidades perceptuales atómicas para verificarlas directamente contra la señal de audio, ofreciendo así una evaluación más precisa y correlacionada con el juicio humano para textos largos.