Rethinking On-policy Optimization for Query Augmentation
Cet article présente une comparaison systématique des méthodes d'augmentation de requêtes par prompting et par apprentissage par renforcement, révélant que le prompting simple est souvent aussi performant que les approches RL, ce qui a motivé la proposition d'une méthode hybride novatrice, l'OPQE, qui combine les avantages des deux paradigmes pour surpasser les solutions existantes.