Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning
Dit paper introduceert In-Context RLVR, een methode die de kwaliteit van redeneringen binnen grote taalmodellen verbetert door in-Context Learning te gebruiken om beloningen automatisch te herwegen op basis van de bewijskracht van de oplossing, waardoor hoogwaardige redeneertraces meer gewicht krijgen dan die welke slechts per ongeluk tot het juiste antwoord leiden.