Latent Poincaré Shaping for Agentic Reinforcement Learning
L'article propose LaPha, une méthode entraînant des agents LLM de type AlphaZero dans un espace latent de Poincaré pour exploiter sa capacité exponentielle et guider la recherche par des récompenses basées sur la géodésique hyperbolique, permettant ainsi d'atteindre des performances exceptionnelles sur des benchmarks mathématiques comme MATH-500 et AIME.