Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks
O artigo apresenta o DialTree, um framework de otimização de política reforçada baseado em árvores que descobre autonomamente estratégias de ataque multi-turno mais eficazes para testar a segurança de modelos de linguagem, superando significativamente os métodos existentes em taxa de sucesso.