Social-R1: Towards Human-like Social Reasoning in LLMs
Il paper presenta Social-R1, un framework di apprendimento per rinforzo che, sfruttando il benchmark avversario ToMBench-Hard per allineare l'intero processo di ragionamento con la cognizione umana, permette a un modello di soli 4 miliardi di parametri di superare modelli più grandi nel raggiungimento di un'intelligenza sociale autentica.