Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control
Die Arbeit stellt RAD vor, ein neuartiges Framework für das sichere Reinforcement Learning aus menschlichem Feedback, das durch den Einsatz von First-Order Stochastic Dominance in Kombination mit Optimal Transport und quantilengewichteten Spektralrisikomaßen die Kontrolle über Verteilungsschwänze und seltene Katastrophenereignisse ermöglicht und so robustere, schädigungsärmere KI-Modelle liefert.