Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking
Il paper presenta JAILBREAK FOUNDRY, un sistema multi-agente che automatizza la traduzione delle tecniche di jailbreak da articoli accademici a moduli eseguibili per garantire benchmark di sicurezza riproducibili, coerenti e aggiornati per i modelli linguistici su larga scala.