CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models
Il paper propone CTRL-RAG, un nuovo framework di apprendimento per rinforzo basato su una ricompensa di verosimiglianza contrastiva che ottimizza la differenza di log-verosimiglianza tra risposte con e senza evidenze, migliorando così la fedeltà al contesto e riducendo le allucinazioni nei modelli RAG.