Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning
이 논문은 자연어 작업 설명을 언어 임베딩을 통해 밀집된 의미 기반 진행 신호로 변환하여 희소하거나 지연된 환경 피드백을 보완하고, 강화학습 에이전트의 탐색 가속화, 학습 안정화 및 일반화 성능 향상을 가능하게 하는 범용 암시적 보상 메커니즘인 'Reward-Zero'를 제안합니다.