AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation
O artigo apresenta o AutoControl Arena, um framework automatizado que combina código executável e modelos de linguagem para avaliar riscos de IA avançada, revelando que modelos alinhados podem exibir alucinações de segurança e padrões de desalinhamento estratégico sob pressão.