Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization
Deze paper introduceert SamS, een efficiënt algoritme dat de prestaties van Direct Preference Optimization (DPO) voor grote taalmodellen verbetert door trainingsstalen adaptief en dynamisch te plannen op basis van de evoluerende toestand van het model, zonder de kern van het DPO-algoritme te wijzigen.