TIC-GRPO: Provable and Efficient Optimization for Reinforcement Learning from Human Feedback
Este artigo apresenta o TIC-GRPO, um algoritmo de otimização para aprendizado por reforço a partir de feedback humano que substitui a razão de importância em nível de token por uma em nível de trajetória para obter um gradiente de política atualizado sem crítico, garantindo convergência mais rápida e desempenho superior em tarefas de raciocínio matemático e codificação.