Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning

该论文提出了一种从噪声标签视角出发的细粒度数据选择方法,通过评估并过滤监督微调中单个样本内不具信息量的冗余或有害词元,在保留关键任务信息的同时显著提升了大语言模型的下游任务性能。

Jinlong Pang, Na Di, Zhaowei Zhu, Jiaheng Wei, Hao Cheng, Chen Qian, Yang Liu

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**“令牌清洗”(Token Cleaning)**的新方法,旨在让大语言模型(LLM)在“微调”(Supervised Fine-Tuning, SFT)阶段学得更聪明、更高效。

为了让你更容易理解,我们可以把大语言模型想象成一个正在备考的超级学霸,而“微调数据”就是他的复习资料

1. 核心问题:复习资料里全是“水”

过去,人们认为复习资料(数据)越厚越好,只要堆砌几百万条题目,学霸就能考高分。但最近的研究发现,资料的质量比数量更重要

这就好比:

  • 你的复习书里有 1000 页。
  • 其中只有 300 页是真正的核心考点(比如数学公式、历史年代)。
  • 剩下的 700 页全是废话(比如“你好”、“请回答”、“综上所述”这些重复的客套话,或者与题目无关的废话)。

如果学霸在复习时,把时间花在死记硬背这些“废话”上,不仅浪费时间,还可能让他对真正的考点产生混淆,导致考试时反应变慢,甚至答非所问。

这篇论文指出的问题就是: 现有的清洗方法通常只会在“整本书”的层面做筛选(比如扔掉整本质量差的练习册),但忽略了**每一页、甚至每一个字(Token)**的质量。即使是一本好书,里面也夹杂着很多无用的“水词”。

2. 解决方案:给每个字打分,只学“干货”

作者提出了一种**“令牌清洗”**的流水线。他们不再只看整本书,而是拿着放大镜,去检查每一个字(Token)是否有用。

核心比喻:两个老师的“打分法”

为了判断一个字有没有用,作者设计了一个巧妙的机制,就像请了两位老师来给每个字打分:

  1. 基础老师(Base Model): 一个还没怎么复习的“普通学生”。
  2. 参考老师(Reference Model): 一个已经复习得很好的“学霸”。

怎么打分?

  • 让“普通学生”和“学霸”同时看同一个字。
  • 如果“学霸”看到这个字,觉得“啊,这个字很重要,我预测得很准”,而“普通学生”却觉得“这字没啥用,我猜不准”,那么这个字就是**“高价值干货”**。
  • 如果两个老师都觉得这个字很普通(比如“的”、“是”这种高频词),或者“学霸”也没觉得它有什么特别,那这个字就是**“低价值水词”**。

清洗过程:
系统会给每个字算出一个“影响力分数”。分数高的(干货)保留,分数低的(水词)直接过滤掉,或者在训练时忽略它们。

3. 两种清洗策略:一次性 vs. 进化式

论文提出了两种具体的操作模式:

策略 A:固定模式清洗(Fixed-Model Cleaning)

  • 比喻: 就像请了一位固定的“特级教师”(参考老师),一次性把整本复习书里的所有“水词”都挑出来扔掉。
  • 特点: 简单、稳定。就像用一把尺子量一遍,把不达标的都切掉。
  • 效果: 比不清洗要好,但提升有限,因为那位“特级教师”的水平是固定的,可能有些细微的干货他也没看出来。

策略 B:自我进化清洗(Self-Evolving Cleaning)—— 这是论文的亮点

  • 比喻: 这是一个**“滚雪球”**的过程。
    1. 先请一位“普通老师”(初始参考模型)挑出一部分干货,让“学生”学。
    2. 学生学完这部分后,变聪明了,变成了新的“参考老师”。
    3. 用这个变聪明了的新老师,去挑下一部分资料里的干货。
    4. 学生再学,变得更聪明,再当新老师……
  • 特点: 这是一个**“马太效应”**(强者愈强)的过程。随着迭代,参考老师越来越懂“什么是真正的干货”,挑出来的资料越来越精,学生学得越来越快。
  • 效果: 实验证明,这种方法能让模型在下一次考试中(下游任务)表现提升最明显。

4. 实验结果:少即是多

作者做了大量实验,把模型放在各种考试(如逻辑推理、常识问答、多语言理解)中测试。

  • 结果: 即使只保留了 60%-70% 的数据(去掉了 30%-40% 的废话),模型的成绩反而更高了。
  • 结论: 在训练大模型时,“少而精”的干货,远胜过“多而杂”的垃圾。 去掉那些无意义的重复和噪音,模型反而能更专注地学习核心知识。

总结

这篇论文就像给大模型的训练过程做了一次**“大扫除”**。它告诉我们:

不要盲目地往模型里塞海量数据,而是要像精挑细选食材一样,把那些无用的“水词”过滤掉,只让模型吃最营养的“干货”。

通过这种**“令牌级”的精细清洗,特别是使用“自我进化”**的策略,我们可以用更少的数据,训练出更聪明、更强大的 AI。