SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning
O artigo apresenta o SarcasmMiner, um framework de pós-treinamento baseado em aprendizado por reforço que utiliza uma estratégia de destilação dual e otimização GRPO para melhorar o raciocínio sobre sarcasmo multimodal, alcançando um F1 de 70,22% no conjunto de dados MUStARD++.