LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy
El artículo presenta LexiSafe, un marco de aprendizaje por refuerzo seguro offline que utiliza una jerarquía lexicográfica para priorizar la seguridad sobre la recompensa, ofreciendo garantías teóricas de complejidad de muestra y mejor rendimiento empírico en sistemas ciberfísicos críticos.