DISCO: Diversifying Sample Condensation for Efficient Model Evaluation

该论文提出了名为 DISCO 的方法,通过选择模型分歧最大的样本来替代传统的基于聚类的锚点选择,从而以更简单、理论更优的方式实现高效且准确的模型评估。

Alexander Rubinstein, Benjamin Raible, Martin Gubri, Seong Joon Oh

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DISCO 的新方法,旨在解决一个让所有人工智能(AI)研究人员都头疼的问题:如何更便宜、更快速地评估 AI 模型的好坏?

想象一下,现在的 AI 模型(比如大语言模型)就像是一个个超级天才。要测试这些天才有多聪明,传统的做法是给他们做一套包含成千上万道题的“期末考试”。但这套考试太贵了:

  • 太费钱:跑完一次测试可能需要几千个小时的 GPU 算力(相当于烧掉很多电费)。
  • 太慢:等结果出来,可能新的模型都迭代好几轮了。
  • 不环保:消耗大量能源。

为了解决这个问题,以前的方法通常是“抽样考试”:从几千道题里挑出 100 道“代表性”的题目,让 AI 做这 100 道,然后猜它做全套题能得多少分。

但是,以前的“挑题”方法有个大毛病:它们试图挑选那些“难度分布均匀”或者“能代表各种题型”的题目。这就像老师为了摸底,特意挑了“简单的、中等的、难的”各几道题。

DISCO 提出了一个完全反直觉的新观点

不要挑“有代表性”的题,要挑“最能吵起来”的题!

🎤 核心比喻:DISCO 的“派对哲学”

想象你要评估一群新来的歌手(AI 模型)的水平。

  • 传统方法(挑代表性题目)
    你找了一群老评委(参考模型),然后问他们:“哪首歌最能代表流行趋势?”他们可能会选几首大家都唱得很好的歌,或者难度适中的歌。结果发现,所有歌手唱这些歌时,表现都差不多,要么都唱得好,要么都唱得一般。你很难分辨谁才是真正的大神,谁只是混日子的。

  • DISCO 方法(挑“分歧”题目)
    DISCO 说:“别管什么代表性了!我们要找那些让评委们吵得不可开交的歌。”

    • 有些歌,评委 A 觉得是神作,评委 B 觉得是垃圾,评委 C 觉得还行。
    • 这种“意见分歧大”的歌,才是最有价值的!
    • 因为在这种歌面前,真正有实力的歌手能唱出独特的水平,而水平一般的歌手就会露馅。

DISCO 的工作流程就像这样

  1. 第一步:找“吵架”题(样本筛选)
    它先让一群“老评委”(已知性能的参考模型)去试做所有题目。它不关心题目难不难,只关心哪个题目让老评委们的答案最不一样

    • 如果所有老评委都选 A,那这道题太简单或太无聊,直接扔掉。
    • 如果老评委们有的选 A,有的选 B,有的选 C,甚至有的觉得这题没法做,那这道题就是“高分值题目”,被 DISCO 选中。
    • 这就好比在选“最能考验真功夫”的考题。
  2. 第二步:看“签名”猜成绩(性能预测)
    现在,我们要测试一个“新歌手”(目标模型)。我们只让他做那 100 道“吵架题”。

    • 传统方法会算他做对了多少题,然后去猜总分。
    • DISCO 则看他的“表演签名”(Model Signature):他在这些题目上具体是怎么回答的?他的回答模式像不像那些高分歌手?
    • 它用一个简单的“预言家”(预测模型),根据新歌手在这些“吵架题”上的表现模式,直接推算出他做全套题的分数。

🌟 为什么 DISCO 这么厉害?

  1. 信息量爆炸
    在那些大家意见一致的题目上,AI 的表现没有区别,就像在平静的湖面上扔石头,激不起浪花。但在“意见分歧”的题目上,AI 的真实能力差异会被放大。这就好比在嘈杂的派对上,只有真正懂音乐的人才能听出谁在跑调。

  2. 简单就是美
    以前的方法需要复杂的数学模型(比如心理测量学中的 IRT 模型)来估算每个题目的“难度参数”。DISCO 说:“别整那些虚的,直接看大家吵得有多凶(分歧度),谁吵得最凶,谁就是好题。”这种方法在数学上被证明是信息量最大的。

  3. 省钱又高效
    实验结果显示,DISCO 只需要用1% 的题目(比如从 14000 道题里只挑 100 道),就能预测出 AI 在整套题上的表现,准确率极高(误差不到 1%)。

    • 比喻:以前要测一个厨师,得让他做满汉全席(几千道菜)。现在 DISCO 说:“不用了,让他做 3 道最难、最挑厨师水平的菜,我就能猜出他做满汉全席的水平。”

📊 实际效果

论文在语言(如 MMLU 测试)和视觉(如 ImageNet 图片识别)两个领域都做了测试:

  • 语言领域:将评估成本降低了 99.3%,预测准确率却几乎没掉。
  • 视觉领域:同样将成本降低了 99.8%

💡 总结

DISCO 就像是一个精明的“选角导演”。
以前的导演试镜时,会让演员演大家都演得好的“标准动作”,结果选出来的人看起来都差不多。
DISCO 则专门挑那些“让评委们争论不休”的剧本片段,让演员去演。因为只有在这些片段里,演员的才华(或缺陷)才会暴露无遗。

通过这种方法,我们不再需要让 AI 做“题海战术”,只需要做几道“灵魂拷问”题,就能精准地知道它到底行不行。这不仅省下了巨额的计算费用,也让 AI 的迭代和创新变得更快、更环保。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →