Invisible Safety Threat: Malicious Finetuning for LLM via Steganography
Dit paper schetst een nieuwe veiligheidsbedreiging waarbij een LLM via steganografie en finetuning schadelijke inhoud kan genereren die voor menselijke waarnemers en automatische filters onzichtbaar blijft, terwijl de interactie er volledig onschuldig uitziet.