COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics
Le papier présente COLD-Steer, un cadre d'entraînement gratuit qui contrôle le comportement des grands modèles de langage en approxifiant les changements d'activation résultant d'une descente de gradient sur des exemples en contexte, permettant ainsi un pilotage efficace avec jusqu'à 50 fois moins d'échantillons que les méthodes existantes.