Data Darwinism Part II: DataEvolve -- AI can Autonomously Evolve Pretraining Data Curation

本文提出了 DataEvolve 框架,通过构建包含问题识别、策略生成与评估的自动化迭代进化闭环,针对海量异构预训练数据自主演化出最优清洗策略,从而显著提升了模型在多项基准测试中的表现。

Tiantian Mi, Dongming Shan, Zhen Huang, Yiwei Qin, Muhang Xie, Yuxuan Qiao, Yixiu Liu, Chenyang Zhou, Pengfei Liu

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何让 AI 自己学会如何挑选和整理训练数据”**的故事。

为了让你更容易理解,我们可以把训练大型语言模型(AI)想象成培养一个天才学生

1. 背景:以前的做法太累了

想象一下,你要培养一个博学的学生。你手里有一堆从互联网上抓来的书、文章、网页(这就是“预训练数据”)。

  • 问题:这些资料里混杂着广告、乱码、重复内容、甚至错误的信息(就像书里夹着垃圾广告、页码乱了、或者被撕掉了几页)。
  • 以前的做法:你需要雇佣一群专家(人类研究员),让他们一本一本地读,然后 manually(手动)制定规则:“如果是数学书,就保留公式;如果是医学书,就保留病例;如果是网页,就把广告删掉”。
  • 痛点:互联网上的资料种类成千上万(数学、医学、代码、小说等),每种资料的问题都不一样。让专家手动为每一种资料制定规则,就像让一个人去给全世界所有的图书馆制定整理规则,累死也做不完,而且很容易出错

2. 核心创新:让“规则”自己进化(DataEvolve)

这篇论文提出了一个叫 DataEvolve 的新框架。它的核心思想是:不要让人类去制定规则,而是让规则自己“进化”。

这就好比达尔文的进化论(所以叫“数据达尔文主义”):

  • 自然选择:系统会自动生成很多种“整理规则”(比如:规则 A 说删掉所有广告,规则 B 说只删掉弹窗广告)。
  • 试错与反馈:系统把这些规则应用到一小部分数据上,然后让一个“考官”(AI 法官)来打分。
    • 如果规则 A 把重要的数学公式也删了,考官会打低分,并告诉规则 A:“你太粗心了,下次别删公式。”
    • 如果规则 B 删得很干净且保留了重点,考官会给高分。
  • 优胜劣汰:得分高的规则会“生”出下一代(在原有基础上微调),得分低的规则会被淘汰。
  • 积累经验:系统有一个“经验池”,记录了以前发现过的所有问题(比如“医学书里经常有乱码”)。每一代规则都会参考这些经验,变得越来越聪明。

简单比喻
以前是人类老师拿着放大镜,一本本教学生怎么整理书架。
现在是给书架装了一个“智能机器人管家”。这个管家一开始很笨,但它会不断尝试不同的整理方法:

  1. 试一次:把书都扔了?不行,太狠了。
  2. 试一次:只扔广告?好像不错,但把目录也扔了。
  3. 试一次:保留目录,只扔广告,还要把乱码修好?完美!
    经过 30 轮的“试错 - 改进”,这个机器人管家终于学会了针对每一类书(数学、医学、代码)最完美的整理方法

3. 他们做了什么?(实验结果)

研究人员用这个方法处理了 8 类不同的数据(数学、计算机、医学等),总共处理了 6720 亿个单词(Token)。

  • 成果:他们得到了一套叫 Darwin-CC 的高质量数据集。
  • 效果
    • 用这套数据训练的 AI 模型,比用“原始脏数据”训练的模型强得多(平均分数提高了近 4 分)。
    • 特别是在需要大量知识的任务(如医学考试、科学问答)上,提升巨大(医学考试分数提升了 13 分多!)。
    • 甚至超过了目前业界公认最好的几个数据集(如 DCLM, FineWeb-Edu)。

4. 一个有趣的发现:做减法比做加法好

在进化过程中,研究人员发现了一个反直觉的现象:

  • 大家以为:AI 会把乱七八糟的网页改写成像教科书一样完美的文章(重写、润色)。
  • 实际发现:进化出来的最佳策略是**“做减法”**。
    • 最好的策略不是把文章重写一遍,而是精准地删除垃圾(广告、乱码、重复内容),同时小心翼翼地保留原文的核心内容(比如保留数学公式的原样,保留医学术语的原样)。
    • 比喻:就像雕刻。最好的方法不是把石头重新捏一遍,而是把石头上的灰尘和多余的边角去掉,让原本藏在里面的雕像显露出来。

5. 总结:这意味着什么?

这篇论文告诉我们:

  1. 自动化是未来的方向:面对海量且复杂的数据,靠人类专家手动制定规则已经行不通了。我们需要让 AI 自己学会如何“清洗”数据。
  2. 进化论很管用:通过不断的“尝试 - 反馈 - 改进”,AI 能找到人类想不到的最佳数据清洗方案。
  3. 少即是多:有时候,把数据洗得干干净净(去噪),比把数据改得花里胡哨(重写)更能提升 AI 的智商。

一句话总结
这篇论文发明了一套**“数据进化系统”**,它不需要人类专家手把手教,而是通过像生物进化一样的“试错”过程,自动为不同类型的资料找到最完美的清洗方法,最终培养出了更聪明、知识更渊博的 AI 模型。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →