Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning
Il paper presenta T2T, un nuovo framework di reward shaping ispirato ai processi di apprendimento umano che migliora il ragionamento dei modelli linguistici bilanciando l'esplorazione estesa su problemi difficili con l'efficienza sui compiti già padroneggiati, ottenendo risultati superiori rispetto alle tecniche esistenti su benchmark matematici.