Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning
Este artigo propõe um paradigma de aprendizado pós-treinamento que utiliza grafos de conhecimento como modelos de recompensa implícitos para fundamentar modelos de linguagem em fatos axiomáticos, permitindo que um modelo de 14B generalize de raciocínios de curto alcance para tarefas complexas de múltiplos saltos no domínio médico, superando sistemas fronteira significativamente maiores.