Social-R1: Towards Human-like Social Reasoning in LLMs
El artículo presenta Social-R1, un marco de aprendizaje por refuerzo que, junto con el nuevo benchmark adversarial ToMBench-Hard, permite a modelos de lenguaje pequeños desarrollar una inteligencia social humana mediante la alineación del proceso de razonamiento y el uso de casos de entrenamiento desafiantes, superando así a modelos mucho más grandes en diversas pruebas.