DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning
O artigo apresenta o DataChef-32B, um modelo que utiliza aprendizado por reforço para gerar automaticamente receitas de dados otimizadas para a adaptação de LLMs, alcançando desempenho comparável ou superior ao de especialistas humanos em diversas tarefas.