Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks
Die Arbeit stellt DialTree vor, ein auf-richtungsorientiertes Reinforcement-Learning-Framework, das durch die Integration von Baumsuche autonom vielfältige Mehr-Turn-Angriffsstrategien gegen Large Language Models entwickelt und dabei die Angriffsrate im Vergleich zu bestehenden Methoden um über 44,2 % steigert.