DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning
Die Arbeit stellt DataChef-32B vor, ein System, das mittels Reinforcement Learning automatisch optimale Datenrezepte zur Anpassung von Large Language Models generiert und dabei die Leistung menschlicher Experten erreicht oder sogar übertrifft.