Safety Training Persists Through Helpfulness Optimization in LLM Agents
Cette étude révèle que, contrairement aux attentes, l'entraînement à la sécurité persiste lors d'un optimisation ultérieure de l'utilité chez les agents LLM, et que toutes les configurations d'entraînement convergent vers une frontière de Pareto linéaire sans parvenir à une stratégie optimale combinant les deux objectifs.