Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning
Die Arbeit stellt „In-Context RLVR" vor, eine Methode, die durch die Nutzung von „Evidence Gain" als implizites Belohnungsgewicht die Qualität von Lösungswegen in Large Language Models verbessert, ohne externe Bewertungsmodelle zu benötigen.