Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning
Este trabajo propone un paradigma de aprendizaje post-entrenamiento donde los grafos de conocimiento actúan como modelos de recompensa implícitos para guiar a los modelos de lenguaje hacia un razonamiento composicional robusto, demostrando que un modelo de 14B entrenado con señales derivadas de caminos de conocimiento supera a sistemas mucho más grandes en tareas de razonamiento médico de múltiples saltos.