Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking
Dit paper introduceert JAILBREAK FOUNDRY, een multi-agent systeem dat automatisch jailbreak-papers omzet in uitvoerbare modules om reproduceerbare en gestandaardiseerde beveiligingstests voor grote taalmodellen mogelijk te maken.