Scaling Laws for Reranking in Information Retrieval

本文首次系统研究了重排序模型在模型规模和数据预算下的扩展规律,证实了点式、成对和列表式重排序的性能遵循可预测的幂律,从而能够利用小规模实验准确预测大规模模型在 NDCG 等指标上的表现,为构建工业级检索系统提供了节省计算资源的可行方法。

Rahul Seetharaman, Aman Bansal, Hamed Zamani, Kaustubh Dhole

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常实际的问题:在搜索引擎里,我们如何知道“更大的模型”一定会带来“更好的搜索结果”,而不需要真的去花巨资训练那个超级大模型?

为了让你轻松理解,我们可以把搜索引擎的工作流程想象成**“招聘面试”,而这篇论文就是关于“如何预测最终面试结果”**的指南。

1. 背景:搜索引擎的“漏斗”面试流程

想象一下,一家大公司(搜索引擎)要招 100 个员工(用户需要的信息)。

  • 第一关(初筛): 由一个反应极快但有点粗心的 HR(比如 BM25 算法)从 100 万份简历中快速挑出 100 份看起来还不错的。这一步叫“召回”,目的是不漏掉好简历。
  • 第二关(重排/Reranking): 这 100 份简历被送到一位超级挑剔、非常专业但动作很慢的资深面试官(重排模型)手中。这位面试官会仔细阅读每一份简历,重新排序,决定哪 10 份是最终要录用的。这一步叫“重排”,目的是精准找出最好的。

问题在于: 这位“资深面试官”(重排模型)非常烧钱。如果你想训练一个拥有 10 亿参数(1B)的超级面试官,需要花费巨大的算力和时间。
这篇论文的核心就是: 我们能不能先面试几个“小个子”的面试官(比如 1700 万到 4 亿参数的模型),看看他们的表现规律,然后预测出那个“超级大面试官”的表现?

2. 核心发现:神奇的“缩放定律”

作者们发现,重排模型的表现遵循一种**“缩放定律”(Scaling Laws)**。

这就好比**“健身”**:

  • 如果你知道一个人每天举 10 公斤能举 5 次,举 20 公斤能举 3 次,你通常可以预测他举 50 公斤能举几次。
  • 在这个研究中,作者发现:只要模型稍微大一点,或者训练数据稍微多一点,它的表现(比如 NDCG,一种衡量排名好坏的分数)就会按照一个可预测的数学曲线(幂律)提升。

最酷的成果是:
他们训练了从“小个子”(1700 万参数)到“中等身材”(4 亿参数)的模型,然后利用这些数据,极其精准地预测出了那个“巨无霸”(10 亿参数)模型的表现。

  • 比喻: 就像你不需要真的去造一辆法拉利,只要测试了 10 辆小轿车和 5 辆中型 SUV 的速度规律,你就能算出法拉利能跑多快,而且算得很准。

3. 三种不同的“面试风格”(重排范式)

论文研究了三种不同的“面试打分方式”,发现它们的表现规律不太一样:

  1. 点式(Pointwise): 像**“单独打分”**。面试官看一份简历,直接打个分(比如 0-100 分)。
    • 特点: 就像练举重,一开始进步快,但很快遇到瓶颈,很难再提升。
  2. 成对式(Pairwise): 像**“二选一”**。面试官拿两份简历比:“这份比那份好吗?”
    • 特点: 随着模型变大,表现越来越稳,适合大模型。
  3. 列表式(Listwise): 像**“整体排序”**。面试官看这 100 份简历,直接排出一个完美的 1 到 100 的名次。
    • 特点: 在模型特别大的时候,这种“大局观”的方法效果最好。

结论: 如果你想用超级大模型,“列表式”(Listwise)可能是未来的王者;但如果你资源有限,“成对式”(Pairwise)在中等规模下表现也很棒。

4. 为什么这很重要?(省钱的秘密)

以前,如果你想测试一个 10 亿参数的模型好不好用,你必须真的去训练它,这可能要花几十万甚至上百万美元的电费和算力。

现在,有了这篇论文的方法:

  • 你只需要训练几个小模型(比如 4 亿参数以下)。
  • 看着它们的表现曲线,画一条线,** extrapolate(外推)** 出大模型的表现。
  • 结果: 你可以准确预测出大模型的 NDCG(排名质量)分数,误差非常小。

比喻: 就像你想买房子,以前必须把整栋楼盖好才能知道房价。现在,你只需要盖好地基和一层楼,看着它的结构,就能算出盖到 100 层时这栋楼值多少钱。这能帮公司省下巨额资金,避免在注定表现不好的模型上浪费钱。

5. 一个小插曲:分数 vs. 排名

论文还发现了一个有趣的现象:

  • 排名(NDCG): 就像比赛的名次(第 1 名、第 2 名)。这个非常稳定,规律很好找。
  • 分数(Contrastive Entropy): 就像选手的具体得分(98.5 分、98.6 分)。这个反而有点“飘忽不定”,有时候模型排得更好了,但具体的分数波动反而变大了。

启示: 在预测大模型时,盯着“排名”看比盯着“分数”看更靠谱

总结

这篇论文就像给搜索引擎工程师提供了一张**“未来地图”**:

  1. 不用盲目试错: 不需要盲目训练超大模型,用小模型就能预测大模型的效果。
  2. 省钱省力: 极大地减少了计算资源的浪费。
  3. 选择策略: 根据你打算用的模型大小,选择最适合的“面试风格”(点式、成对式或列表式)。

简单来说,它告诉我们:在信息检索的世界里,只要掌握了规律,小步快跑也能预知未来,不必非要一开始就造“巨无霸”。