Partial Policy Gradients for RL in LLMs
O artigo propõe uma abordagem de Gradientes de Política Parciais para Aprendizado por Reforço em LLMs, que otimiza subconjuntos de recompensas futuras para modelar diferentes classes de políticas (como planejamento completo, gananciosa ou com horizonte limitado), demonstrando empiricamente que diferentes políticas se destacam em diferentes problemas de alinhamento conversacional.