How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities
Cet article présente SteerEval, une nouvelle évaluation hiérarchique qui révèle que le contrôle des grands modèles de langage se dégrade souvent à des niveaux de granularité plus fins, tout en offrant un cadre unifié pour évaluer la maîtrise du comportement des modèles à travers trois domaines et trois niveaux de spécification.