Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity
En proposant une méthode qui approxime une distribution cible par filtrage des réponses incorrectes via la famille des divergences , cette étude surmonte la perte de diversité des modèles de langage entraînés par apprentissage par renforcement, permettant d'atteindre un état de l'art sur le front de Pareto précision-coverage pour la preuve de théorèmes.