Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective
Diese Arbeit analysiert theoretisch die Vor- und Nachteile von Reinforcement Learning für die Planung in Sprachmodellen und zeigt, dass Exploration entscheidend für die Generalisierung ist, während Policy Gradient zu einem Diversitätsverlust führt, wohingegen Q-Learning durch Off-Policy-Lernen und Diversitätserhaltung Vorteile bietet, sofern die Belohnungsfunktion sorgfältig gestaltet wird.