Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction
Diese Arbeit stellt einen neuen Ansatz vor, der die mehrdeutige Emotionserkennung als verteilungsorientiertes Schlussfolgerungsproblem neu formuliert und durch eine mehrdeutigkeitsbewusste Zielfunktion sowie strukturierte Chain-of-Thought-Supervision die reasoning-Fähigkeiten von großen Audio-Sprachmodellen verbessert.