MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue
O artigo apresenta o MAPO, um algoritmo de otimização de política sem crítico que utiliza feedback denso de um modelo avaliador e um estimador de vantagem misto para superar os desafios de atribuição de crédito em diálogos multi-turno subjetivos de longo prazo, demonstrando melhorias significativas e generalização em diversos benchmarks de inteligência emocional.