Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction
Este trabalho reformula o reconhecimento de emoções ambíguas como um problema de raciocínio distribucional em Modelos de Linguagem e Áudio Grandes (LALMs), introduzindo um framework com objetivos alinhados a distribuições perceptivas humanas e supervisão estruturada de cadeia de pensamento que demonstra melhorias consistentes em tarefas de previsão de emoções ambíguas.