Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates
Cette étude révèle une nouvelle vulnérabilité de la chaîne d'approvisionnement des LLM où des attaquants peuvent植入 des portes dérobées au moment de l'inférence en modifiant les modèles de chat Jinja2, permettant d'altérer le comportement du modèle sans toucher aux poids ni aux données d'entraînement.