In-Context Reinforcement Learning for Tool Use in Large Language Models
Deze paper introduceert In-Context Reinforcement Learning (ICRL), een schaalbaar en data-efficiënt framework dat grote taalmodellen zonder voorafgaande gesuperviseerde fijne afstemming (SFT) leert externe hulpmiddelen effectief te gebruiken door tijdens het trainingsproces geleidelijk van few-shot naar zero-shot prompting over te schakelen.