Clear, Compelling Arguments: Rethinking the Foundations of Frontier AI Safety Cases
Questo articolo propone un nuovo quadro teorico e metodologico per i casi di sicurezza dell'IA avanzata, criticando gli approcci attuali della comunità di allineamento e integrando lezioni tratte da settori ad alta criticità come l'aerospaziale e il nucleare per sviluppare argomentazioni più robuste e difendibili, con un caso di studio specifico su allineamento ingannevole e capacità CBRN.