Can RL Improve Generalization of LLM Agents? An Empirical Study
Deze empirische studie toont aan dat hoewel Reinforcement Fine-Tuning (RFT) LLM-agenten goed laat generaliseren binnen een omgeving, de overdracht naar onbekende omgevingen beperkt blijft door semantische en interface-verschuivingen, terwijl sequentiële training en mix-training veelbelovende oplossingen bieden voor robuustere generalisatie.