Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning
O artigo apresenta o RePO, um novo método de otimização que combina aprendizado por reforço para explorar novas moléculas com orientação supervisionada baseada em referências para estabilizar o treinamento, superando abordagens tradicionais de ajuste fino e aprendizado por reforço em tarefas de otimização molecular guiada por LLMs.