Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning
Die Arbeit stellt einen effizienten Nachtrainierungsansatz vor, bei dem Wissensgraphen als implizite Belohnungsmodelle dienen, um Sprachmodelle durch abgeleitete Pfadeignale zu befähigen, komplexe mehrstufige Schlussfolgerungen in Fachbereichen wie der Medizin durch Zusammensetzung axiomatischer Fakten zu treffen und dabei deutlich größere Modelle sowie Frontier-Systeme zu übertreffen.