MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning
Dit paper introduceert MSRL, een multi-stadia versterkingsleerbenadering die schaalbare training van generatieve multimodale beloningsmodellen mogelijk maakt door eerst op tekstuele data te leren en deze vaardigheden vervolgens over te dragen naar multimodale taken, waardoor prestaties aanzienlijk verbeteren zonder extra multimodale voorkeurannotaties.