Towards Self-Robust LLMs: Intrinsic Prompt Noise Resistance via CoIPO
Cet article propose CoIPO, une méthode d'optimisation des préférences inverses basée sur l'apprentissage contrastif qui améliore la robustesse intrinsèque des grands modèles de langage face aux variations de prompts en minimisant l'écart entre les logits générés par des prompts propres et bruyants, validée par de nouveaux benchmarks et jeux de données.