Social-R1: Towards Human-like Social Reasoning in LLMs
O artigo apresenta o Social-R1, um framework de aprendizado por reforço que utiliza o benchmark adversarial ToMBench-Hard para treinar modelos de linguagem com raciocínio social humano, permitindo que um modelo de 4 bilhões de parâmetros supere versões maiores e generalize eficazmente em diversas tarefas sociais.