Automating Deception: Scalable Multi-Turn LLM Jailbreaks
Questo articolo presenta una pipeline automatizzata per generare dataset su larga scala di jailbreak conversazionali basati sul principio psicologico del "piede nella porta", rivelando attraverso un benchmark di 1.500 scenari che la robustezza dei modelli LLM varia drasticamente, con la famiglia GPT particolarmente vulnerabile al contesto conversazionale mentre Gemini 2.5 Flash dimostra un'eccezionale resilienza.