Rethinking Representativeness and Diversity in Dynamic Data Selection

该论文通过重新定义样本代表性(基于数据集级高频特征覆盖)和多样性(基于训练过程中稀有因子的渐进式纳入),提出了一种利用稀疏自编码器评分、稀有因子采样及频率惩罚机制的动态数据选择框架,在无需额外模型梯度的情况下实现了超过 2 倍的训练加速,同时在多个视觉和文本任务上保持了与全量数据训练相当的精度。

Yuzhe Zhou, Zhenglin Hua, Haiyun Guo, Yuheng Jia

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章提出了一种让 AI 学习得更快、更聪明的新方法。为了让你轻松理解,我们可以把训练 AI 想象成一位老师(AI 模型)在准备一场大考(最终任务),而数据集就是厚厚的教科书

传统的做法是:老师把整本教科书(所有数据)从头到尾读一遍。这很全面,但太慢了,而且有些内容老师早就懂了,重复读是在浪费时间。

于是,以前的“聪明老师”尝试只读一部分书(数据选择)。但他们有两个主要问题:

  1. 只挑“中心”内容:他们觉得书里最典型、最普通的例子最重要(比如只挑最标准的苹果图片),结果忽略了那些虽然少见但很关键的细节(比如被咬了一口的苹果,或者红苹果和青苹果的区别)。
  2. 死记硬背:他们一旦觉得某几页书好,就反复读这几页,导致对其他重要内容视而不见,最后考试时遇到没见过的题型就懵了。

这篇论文提出的新框架,就像给老师配备了一位超级助教,用两个全新的策略来重新安排学习计划:

1. 重新定义“代表性”:从“找中心”变成“找高频关键词”

  • 旧观念:以前认为,选书要看哪一页离“中心”最近(几何中心)。就像在人群里找最平均的那个人。
  • 新观念(论文做法):论文认为,代表性应该是看这本书是否覆盖了大家最常提到的“关键词”
  • 比喻:想象你在学做菜。以前你可能只挑那些“最标准的西红柿炒蛋”图片。但新方法会问:“这道菜里,‘西红柿’和‘鸡蛋’这两个核心要素出现得够不够多?”
    • 他们用一个叫稀疏自编码器(SAE)的工具(可以想象成一个超级分类员),把成千上万张图片拆解成一个个“特征积木”(比如:红色、圆形、有轮子、有叶子)。
    • 如果一张图包含了大家最常看到的“高频积木”(比如红色的圆),它就被认为很有“代表性”。这样选出来的书,能确保老师掌握了最核心的常识。

2. 重新定义“多样性”:从“一次挑够”变成“轮流换着学”

  • 旧观念:以前认为,多样性就是在一堆书里挑得越散越好(比如不要都挑红色的)。
  • 新观念(论文做法):论文认为,多样性应该是一个时间轴上的过程。老师不应该一开始就试图看完所有冷门知识,而应该随着学习进度,慢慢把那些“稀有但重要”的知识点(比如特殊的纹理、罕见的角度)加进来
  • 比喻:这就像排课表
    • 前期:先集中火力攻克“高频积木”(核心概念),把基础打牢。
    • 后期:开始引入“稀有积木”(边缘案例),防止老师只见过一种情况。
    • 防垄断机制(使用频率惩罚):这是最精彩的一点。如果老师连续几天都读同一页书,助教就会给这一页打个“负分”(惩罚),强迫老师去读别的书。这就像防止老师只盯着几个优等生提问,而忽略了那些虽然成绩一般但很有潜力的学生。这确保了在整个学习过程中,老师能雨露均沾,不会偏科。

3. 智能课表(课程调度器)

  • 这个系统不是死板的,它有一个智能课表
  • 刚开始:课表侧重于“代表性”,让老师快速掌握核心规律。
  • 快结束时:课表自动平滑过渡到“多样性”,让老师去探索那些稀有的、难懂的案例,修补知识盲区。
  • 最后,老师还会用剩下的时间快速浏览一遍全书(全数据微调),确保没有遗漏。

总结:效果如何?

通过这种方法,AI 模型:

  • 学得更快:训练时间缩短了一半以上(2 倍加速)。
  • 考得更好:虽然只读了部分书,但考试成绩(准确率)甚至比读完整本书的老师还要好,或者至少一样好。
  • 更稳健:即使在数据有噪音(比如书里有错别字)的情况下,也能保持冷静,不会像以前那样被带偏。

一句话总结
这篇论文教 AI 如何像聪明的学生一样学习:先抓核心重点(高频特征),再按部就班地补充冷门知识(过程多样性),并且强迫自己不要死磕同一道题(防垄断惩罚)。这样既省时间,又考高分。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →