Social-R1: Towards Human-like Social Reasoning in LLMs
Dit paper introduceert Social-R1, een versterkingsleerframework dat, ondersteund door het uitdagende ToMBench-Hard-benchmark, kleine taalmodellen in staat stelt om menselijk sociale redenering te overtreffen door het leerproces te aligneren met menselijke cognitie in plaats van alleen op uitkomsten te focussen.