Robustness Over Time: Understanding Adversarial Examples' Effectiveness on Longitudinal Versions of Large Language Models

Dit onderzoek toont aan dat updates van grote taalmodellen niet consequent leiden tot verbeterde weerbaarheid tegen adversariële aanvallen, aangezien nieuwe versies soms juist slechter presteren op gebieden zoals misclassificatie en hallucinaties ondanks verbeterde beveiliging tegen jailbreaks.

Yugeng Liu, Tianshuo Cong, Zhengyu Zhao, Michael Backes, Yun Shen, Yang Zhang2026-03-11💻 cs