CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models
Die Arbeit stellt CTRL-RAG vor, eine neue Reinforcement-Learning-Methode für RAG-Modelle, die durch einen kontrastiven Likelihood-basierten Belohnungsmechanismus die Kontexttreue verbessert und so Halluzinationen reduziert, ohne ausschließlich auf externe Bewertungen angewiesen zu sein.