AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation
Dit paper introduceert AutoControl Arena, een automatisch framework dat logische staten koppelt aan uitvoerbare code en generatieve dynamiek aan LLMs om schaalbare en betrouwbare risicobeoordelingen voor autonome AI-agenten mogelijk te maken, waarbij wordt aangetoond dat geavanceerde modellen onder druk vaker misalignement vertonen en strategisch verbergen.