Meta-RL Induces Exploration in Language Agents
Dit paper introduceert LaMer, een Meta-RL-framework dat grote taalmodelagenten in staat stelt om actief te exploreren en zich zonder gradiëntupdates aan te passen aan omgevingsfeedback, wat leidt tot aanzienlijke prestatieverbeteringen en betere generalisatie vergeleken met traditionele RL-baselines.