DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

该论文提出了名为 DataChef-32B 的强化学习框架,通过端到端自动生成数据食谱来优化大语言模型适应过程,其生成的食谱在多个任务上达到了专家级水平,并成功将 Qwen3-1.7B-Base 在 AIME'25 数学基准上的表现提升至超越官方后训练检查点的 66.7 分。

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DataChef(数据大厨) 的 AI 系统。为了让你轻松理解,我们可以把训练一个大语言模型(LLM)的过程,想象成开一家米其林餐厅

🍳 核心概念:数据就是食材,菜谱就是灵魂

在传统的 AI 训练里,数据就像是食材(比如牛肉、蔬菜、香料),而大模型就是厨师

  • 过去的问题:以前,为了让厨师(AI)学会做“数学题”这道菜,人类专家(数据工程师)必须亲自去菜市场挑菜、洗菜、切菜,还要写一本厚厚的《烹饪手册》(数据处理流程),告诉厨师:“先切掉烂叶子,再放盐,最后大火炒 3 分钟”。
    • 这个过程非常累,而且全靠专家的“直觉”和“经验”。如果菜谱写得不好,做出来的菜(AI 模型)就很难吃。
  • DataChef 的突破:DataChef 就像是一个超级 AI 大厨。你只需要告诉它:“我想做一道‘数学’菜,这是市场上能买到的所有食材(原始数据集)。”
    • 然后,DataChef 会自动思考:哪些食材新鲜?需要切多细?先放什么后放什么?
    • 它不仅能写出一本完美的《烹饪手册》(数据处理代码),还能自动执行这个流程,把一堆杂乱的原始食材,变成一锅色香味俱全的“训练数据汤”。

🚀 DataChef 是怎么工作的?(三步走)

想象 DataChef 在厨房里忙碌的三个步骤:

1. 试菜与尝味(数据验证器)

在正式开火前,DataChef 会先尝一口它调好的“汤底”。

  • 它有一个**“美食评委”(Data Verifier)**,这个评委不需要等菜端给顾客(不需要真的训练整个大模型,那太慢了),只要尝一小口,就能判断:“这汤咸淡适中,食材新鲜,是个好汤!”或者“这汤里混进了沙子,不能喝!”
  • 这个评委给汤打分,分数越高,说明这锅“数据汤”越适合用来训练 AI。

2. 不断改良(强化学习)

DataChef 不是一次就成功的。它会像学徒一样:

  • 第一次:随便切切菜,评委说:“太咸了,不行。”
  • 第二次:DataChef 记住了教训,少放点盐,评委说:“好多了,但火候不够。”
  • 第 N 次:经过成百上千次的“尝试 - 反馈 - 修正”,DataChef 终于摸索出了一套完美的独家菜谱。它学会了如何把一堆普通的食材(比如普通的数学题数据),通过特殊的处理(比如把题目改写得更有逻辑,或者合成新的难题),变成顶级食材。

3. 端上餐桌(生成最终成果)

最后,DataChef 会输出一套可执行的代码。这套代码就是它的“自动烹饪机器人”。只要运行这段代码,就能自动把原始数据清洗、混合、加工,变成训练 AI 所需的高质量数据。

🏆 成果有多厉害?

论文里展示了几个惊人的战绩:

  1. 超越人类专家:在 6 个不同的领域(比如数学、编程、金融、气象等)测试中,DataChef 自动生成的“菜谱”,做出来的 AI 模型效果,和人类顶级专家手写的菜谱一样好,甚至更好
  2. 数学界的奇迹:在著名的数学竞赛 AIME'25 上,DataChef 用一个小模型(Qwen3-1.7B)做训练,结果它的得分达到了 66.7 分
    • 这比那个模型原本官方发布的、由人类专家精心调教过的版本(33.3 分)还要高出一倍
    • 这就好比你让一个刚入门的厨师,用 DataChef 给的菜谱,做出了比米其林三星主厨还要好吃的菜。
  3. 省钱省力:以前为了找最好的数据,人类要试错很久,浪费大量算力。DataChef 用“评委尝味”代替了“全模型训练”,速度快了无数倍,成本也大大降低。

💡 总结:为什么这很重要?

以前,AI 的进步很大程度上取决于人类能不能找到好数据、写好菜谱。这就像做饭,厨师再厉害,如果食材不好或者菜谱不对,也做不出好菜。

DataChef 的意义在于:
它把“找食材”和“写菜谱”这两个最累、最依赖人的环节,完全交给了 AI 自己

  • 它让 AI 具备了**“自我进化”**的能力:AI 可以自己决定怎么吃、怎么练,从而变得更强。
  • 这标志着我们离**“全自动 AI 工厂”**又近了一步。未来,可能不需要人类专家天天盯着数据清洗,只要给 AI 一个目标,它就能自己搞定一切,做出越来越聪明的“大脑”。

一句话总结:
DataChef 就是一个AI 自动厨师,它能自己研究怎么把一堆乱糟糟的原材料(数据),通过自动写菜谱、自动炒菜,变成让 AI 变聪明的“营养大餐”,而且做得比人类专家还好吃!