Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering
O artigo propõe uma técnica de interpretabilidade mecânica para identificar cabeças de atenção especializadas em áudio em modelos de linguagem multimodal, permitindo a aplicação de uma intervenção de ativação durante a inferência que amplifica a atenção ao áudio e melhora a precisão em até 8 pontos percentuais sem atualizar os parâmetros do modelo.