Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning
该论文提出了一种名为“上下文强化学习验证(In-Context RLVR)”的新方法,通过利用模型自身的上下文学习能力生成“证据增益”信号来隐式地根据推理质量对奖励进行重加权,从而在无需外部评估器的情况下解决传统 RLVR 可能强化低质量推理路径的问题,显著提升了数学基准测试中的准确率与推理质量。