COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics
Il paper presenta COLD-Steer, un framework senza addestramento che controlla il comportamento dei grandi modelli linguistici durante l'inferenza approssimando le dinamiche di apprendimento in un solo passo tramite esempi in contesto, ottenendo un'efficacia di steering fino al 95% con 50 volte meno campioni rispetto alle migliori tecniche esistenti.