Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control
Este trabajo presenta RAD, un marco de alineación que reemplaza las restricciones de costo esperado tradicionales por restricciones de dominancia estocástica de primer orden dentro de un marco de transporte óptimo, permitiendo un control universal de medidas de riesgo espectral y mejorando la robustez ante eventos catastróficos y distribuciones fuera de contexto en el Aprendizaje por Refuerzo a partir de Feedback Humano (RLHF).