Social-R1: Towards Human-like Social Reasoning in LLMs
Le papier présente Social-R1, un cadre d'apprentissage par renforcement qui, combiné au benchmark adversarial ToMBench-Hard, permet à un modèle de langage de 4 milliards de paramètres de surpasser des modèles plus grands en matière de raisonnement social grâce à un alignement trajectoriel multi-dimensionnel de la cognition humaine.