RLAR: An Agentic Reward System for Multi-task Reinforcement Learning on Large Language Models
이 논문은 대규모 언어 모델의 다중 작업 강화 학습에서 정적 보상 모델의 한계를 극복하고, 인터넷에서 최적의 보상 모델을 동적으로 검색 및 합성하여 데이터 분포 변화에 맞춰 진화하는 에이전트 기반 보상 시스템 'RLAR'을 제안하고, 이를 통해 다양한 작업에서 뛰어난 일반화 성능과 성능 향상을 입증합니다.