Data Darwinism Part II: DataEvolve -- AI can Autonomously Evolve Pretraining Data Curation

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何让 AI 自己学会如何挑选和整理训练数据”**的故事。

为了让你更容易理解，我们可以把训练大型语言模型（AI）想象成培养一个天才学生。

1. 背景：以前的做法太累了

想象一下，你要培养一个博学的学生。你手里有一堆从互联网上抓来的书、文章、网页（这就是“预训练数据”）。

问题：这些资料里混杂着广告、乱码、重复内容、甚至错误的信息（就像书里夹着垃圾广告、页码乱了、或者被撕掉了几页）。
以前的做法：你需要雇佣一群专家（人类研究员），让他们一本一本地读，然后 manually（手动）制定规则：“如果是数学书，就保留公式；如果是医学书，就保留病例；如果是网页，就把广告删掉”。
痛点：互联网上的资料种类成千上万（数学、医学、代码、小说等），每种资料的问题都不一样。让专家手动为每一种资料制定规则，就像让一个人去给全世界所有的图书馆制定整理规则，累死也做不完，而且很容易出错。

2. 核心创新：让“规则”自己进化（DataEvolve）

这篇论文提出了一个叫 DataEvolve 的新框架。它的核心思想是：不要让人类去制定规则，而是让规则自己“进化”。

这就好比达尔文的进化论（所以叫“数据达尔文主义”）：

自然选择：系统会自动生成很多种“整理规则”（比如：规则 A 说删掉所有广告，规则 B 说只删掉弹窗广告）。
试错与反馈：系统把这些规则应用到一小部分数据上，然后让一个“考官”（AI 法官）来打分。
- 如果规则 A 把重要的数学公式也删了，考官会打低分，并告诉规则 A：“你太粗心了，下次别删公式。”
- 如果规则 B 删得很干净且保留了重点，考官会给高分。
优胜劣汰：得分高的规则会“生”出下一代（在原有基础上微调），得分低的规则会被淘汰。
积累经验：系统有一个“经验池”，记录了以前发现过的所有问题（比如“医学书里经常有乱码”）。每一代规则都会参考这些经验，变得越来越聪明。

简单比喻：
以前是人类老师拿着放大镜，一本本教学生怎么整理书架。
现在是给书架装了一个“智能机器人管家”。这个管家一开始很笨，但它会不断尝试不同的整理方法：

试一次：把书都扔了？不行，太狠了。
试一次：只扔广告？好像不错，但把目录也扔了。
试一次：保留目录，只扔广告，还要把乱码修好？完美！
经过 30 轮的“试错 - 改进”，这个机器人管家终于学会了针对每一类书（数学、医学、代码）最完美的整理方法。

3. 他们做了什么？（实验结果）

研究人员用这个方法处理了 8 类不同的数据（数学、计算机、医学等），总共处理了 6720 亿个单词（Token）。

成果：他们得到了一套叫 Darwin-CC 的高质量数据集。
效果：
- 用这套数据训练的 AI 模型，比用“原始脏数据”训练的模型强得多（平均分数提高了近 4 分）。
- 特别是在需要大量知识的任务（如医学考试、科学问答）上，提升巨大（医学考试分数提升了 13 分多！）。
- 甚至超过了目前业界公认最好的几个数据集（如 DCLM, FineWeb-Edu）。

4. 一个有趣的发现：做减法比做加法好

在进化过程中，研究人员发现了一个反直觉的现象：

大家以为：AI 会把乱七八糟的网页改写成像教科书一样完美的文章（重写、润色）。
实际发现：进化出来的最佳策略是**“做减法”**。
- 最好的策略不是把文章重写一遍，而是精准地删除垃圾（广告、乱码、重复内容），同时小心翼翼地保留原文的核心内容（比如保留数学公式的原样，保留医学术语的原样）。
- 比喻：就像雕刻。最好的方法不是把石头重新捏一遍，而是把石头上的灰尘和多余的边角去掉，让原本藏在里面的雕像显露出来。

5. 总结：这意味着什么？

这篇论文告诉我们：

自动化是未来的方向：面对海量且复杂的数据，靠人类专家手动制定规则已经行不通了。我们需要让 AI 自己学会如何“清洗”数据。
进化论很管用：通过不断的“尝试 - 反馈 - 改进”，AI 能找到人类想不到的最佳数据清洗方案。
少即是多：有时候，把数据洗得干干净净（去噪），比把数据改得花里胡哨（重写）更能提升 AI 的智商。

一句话总结：
这篇论文发明了一套**“数据进化系统”**，它不需要人类专家手把手教，而是通过像生物进化一样的“试错”过程，自动为不同类型的资料找到最完美的清洗方法，最终培养出了更聪明、知识更渊博的 AI 模型。

Data Darwinism Part II: DataEvolve -- AI can Autonomously Evolve Pretraining Data Curation

1. 背景：以前的做法太累了

2. 核心创新：让“规则”自己进化（DataEvolve）

3. 他们做了什么？（实验结果）

4. 一个有趣的发现：做减法比做加法好

5. 总结：这意味着什么？

1. 研究背景与问题 (Problem)

2. 方法论：DataEvolve 框架 (Methodology)

核心组件 (Closed Evolutionary Loop)

知识库与进化机制

3. 实验设置 (Experiments)

4. 关键结果 (Results)

5. 核心发现与分析 (Analysis)

6. 主要贡献 (Contributions)

7. 意义与局限性 (Significance & Limitations)

Data Darwinism Part II: DataEvolve -- AI can Autonomously Evolve Pretraining Data Curation

1. 背景：以前的做法太累了

2. 核心创新：让“规则”自己进化（DataEvolve）

3. 他们做了什么？（实验结果）

4. 一个有趣的发现：做减法比做加法好

5. 总结：这意味着什么？

1. 研究背景与问题 (Problem)

2. 方法论：DataEvolve 框架 (Methodology)

核心组件 (Closed Evolutionary Loop)

知识库与进化机制

3. 实验设置 (Experiments)

4. 关键结果 (Results)

5. 核心发现与分析 (Analysis)

6. 主要贡献 (Contributions)

7. 意义与局限性 (Significance & Limitations)

类似论文

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers