Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking
O artigo apresenta o JAILBREAK FOUNDRY (JBF), um sistema baseado em agentes múltiplos que traduz automaticamente artigos sobre jailbreaks em módulos executáveis padronizados, permitindo a reprodutibilidade precisa e a avaliação unificada de ataques em modelos de linguagem.