Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction
Este trabajo presenta un marco innovador para el reconocimiento de emociones ambiguas en modelos grandes de audio-idioma, reformulando la tarea como un problema de razonamiento distribucional mediante un objetivo consciente de la ambigüedad y una supervisión estructurada de pensamiento en cadena que alinea las predicciones con las distribuciones perceptuales humanas.