以下是用通俗易懂的语言和富有创意的类比对该论文的解释。

核心问题：偏见是与生俱来的，还是后天习得的？

想象一下，你正在聘请一位图书管理员，从一座庞大的图书馆中查找特定事实。你发现了一个奇怪的问题：如果信息位于书籍的中间或末尾，这位管理员就完全找不到。如果答案在第一页，他们几乎总能找到；但如果答案在第 500 页，他们往往会完全错过。

这被称为位置偏见。长期以来，研究人员认为这种偏见是“硬编码”在管理员大脑（即计算机模型的架构）中的，就像他们眼睛或耳朵的生理局限一样。他们曾认为：“哦，这位管理员就是无法看到第一页之后的内容。”

这篇论文提出了一个不同的问题： 如果这位管理员并非天生就有这种坏习惯呢？如果这种习惯只是从他们受训所读的书中学来的呢？

实验：训练图书管理员

为了验证这一点，研究人员为八种不同类型的图书管理员（计算机模型）设立了一个特殊的训练营。这些管理员拥有不同的“大脑结构”（有些是编码器，有些是解码器，有些使用了不同的数学技巧），因此他们本应具有不同的自然倾向。

研究人员利用合成数据设置了四种截然不同的训练场景：

“仅开头”训练营： 只向管理员展示答案位于文本最开头的问题。
“仅中间”训练营： 只展示答案位于中间的问题。
“仅结尾”训练营： 只展示答案位于最末尾的问题。
“平衡”训练营： 展示上述三种情况的混合，让管理员了解到答案可能出现在任何位置。

结果：图书管理员复制了老师的习惯

结果令人惊讶且非常明确。管理员们并没有固守其“天然”的大脑结构，而是完全采纳了训练营所灌输的习惯。

“仅开头”管理员变得对文本开头极度执着。如果答案在那里，他们表现极佳；如果答案在末尾，他们则表现得一塌糊涂。
“仅结尾”管理员则完全反转了模式。他们忽略了开头，却成为了在文档最末尾寻找答案的专家。
“仅中间”管理员学会了专门在中间寻找答案。

类比： 想象你只在你站在房间左侧时教一只狗坐下。如果你随后走到右侧并说“坐下”，这只狗就不会照做。这只狗并不是“不擅长”坐下，它只是学会了“坐下”这个指令只发生在左侧。同样，这些人工智能模型也学会了“相关信息”只存在于训练数据指示它们去查找的位置。

即使是那些起初带有轻微自然偏好（例如略微倾向于查看开头）的管理员，也完全改变了行为模式，以匹配训练数据。

解决方案：“均衡”饮食

该论文还测试了如果给管理员提供均衡饮食（即“平衡训练营”）会发生什么。

结果： 当在开头、中间和结尾的混合示例上进行训练时，管理员们变得可靠得多。他们不再忽略书籍的某些部分。
权衡： 这是否让他们整体变慢或变差？没有。他们在寻找答案方面与那些有偏见的管理员一样出色，但他们不再存在“盲点”。无论答案在第 1 页还是第 500 页，他们都能找到。

为什么这很重要

该论文得出结论：位置偏见并非机器设计中的永久性缺陷。 它是从输入的数据中学来的习惯。

问题所在： 许多现实世界的数据集（如新闻文章或搜索日志）自然地将最重要的信息放在开头。如果你用这些数据训练人工智能，它就会学会忽略文档的其余部分。
解决方法： 你不需要重建人工智能的大脑或改变其复杂的数学原理。你只需要更好地策划你的训练数据。通过确保人工智能能看到答案位于中间和末尾的示例，你就可以“消除”这种偏见，从而创建一个更稳健、更公平的检索器。

简而言之： 偏见并非与生俱来，而是后天习得的。就像学生如果得到正确的练习题就能改掉不良的学习习惯一样，这些人工智能模型如果获得均衡的训练数据，也能消除位置偏见。

技术摘要：密集检索器中的位置偏差

问题陈述

密集检索器是开放域问答和检索增强生成（RAG）的核心，它们表现出系统性的位置偏差。它们不成比例地偏好查询相关信息出现在文档开头的文档，导致当相关证据位于文档中间或末尾时，性能显著下降。

尽管先前的研究已在各种训练阶段和位置编码中实证观察到了这种偏差，但其根本原因尚不清楚。之前的解释主要集中在架构因素上，例如自回归模型中的因果注意力机制或特定的池化令牌注意力模式。然而，基于编码器的密集检索器缺乏因果掩码，却依然表现出强烈的“首因偏差”，这表明仅靠架构无法完全解释该现象。目前存在一个关键缺口，即理解微调数据的位置分布在多大程度上塑造了这种偏差，因为先前的工作主要依赖观察，而非直接操纵训练数据分布。

方法论

为了隔离训练数据对检索级位置偏差的影响，作者构建了一个包含合成位置目标数据集和多样化模型架构的受控实验框架。

1. 位置控制的数据构建

作者开发了一个三阶段流程来生成训练数据，其中查询相关证据的位置受到严格控制：

语料库准备：使用英文维基百科，按长度将文档分层为五个区间（256–8192 字符），并划分为三个相等的段落：开头、中间和结尾。
位置目标查询生成：利用 GPT-4o-mini 结合角色条件提示，生成仅能由特定目标段落（开头、中间或结尾）回答的查询。
多重排序器验证：为确保生成的查询确实仅针对目标段落，由三个交叉编码器重排序器（BGE、GTE、Jina）组成的专家组对候选项进行验证。仅当所有重排序器对目标段落的评分至少比最强的非目标段落高出 $\delta=0.3$ 时，该候选项才会被保留。
平衡采样：由此产生的保留池自然偏向开头。为了创建受控的训练集，作者在长度 - 位置单元格内进行下采样，以确保在特定实验配置中，长度区间和目标位置具有相等的代表性。

2. 实验设计

该研究在四种不同的训练配置下，对八种架构各异的预训练模型（包括 BERT、Longformer、ModernBERT、GPT-2、BLOOM、TinyLlama 和 Qwen3）进行了微调：

集中配置：训练数据中 100% 的查询分别针对文档的开头（MB）、中间（MM）或结尾（ME）。
均匀配置（MU）：训练数据中的查询在三个位置之间均匀分布。

模型在以下方面进行了评估：

位置感知基准：SQuAD-PosQ、FineWeb-PosQ 和 PosIR，这些基准允许根据证据的具体位置来测量性能。
标准检索基准：四个 BEIR 子集（SciFact、HotpotQA、FEVER、Climate-FEVER），用于评估在证据位置不受控制的常规设置下的性能。
表示分析：对查询 - 文档对和文档段落嵌入之间的余弦相似度进行分析，以确定偏差是否存在于嵌入层面。

主要结果

1. 训练分布决定偏差方向

主要发现是，检索级位置偏差遵循训练数据分布，无论模型架构如何。

在偏向开头的数据（MB）上训练的模型始终偏好早期证据。
在偏向中间的数据（MM）上训练的模型偏好中间证据。
在偏向结尾的数据（ME）上训练的模型偏好后期证据。
这种方向性转变发生在所有八个模型中，包括那些具有不同位置编码（APE、RoPE、ALiBi、NoPE）和池化策略（CLS、Mean、Last-token）的模型。

2. 通过平衡训练进行缓解

**位置平衡训练（MU）**显著降低了位置敏感性，且未牺牲检索性能。

在位置感知基准上，与所有模型中最差的偏差配置相比，平衡训练将位置敏感性指数（PSI）降低了57–87%。
例如，在 SQuAD-PosQ 上，GPT-2-medium 的 PSI 从 0.592（开头训练）降至 0.080（均匀训练）。
至关重要的是，均匀训练的模型保持了具有竞争力的平均检索性能（nDCG@10），在各项基准测试中经常获得最高或接近最高的分数。这表明减少偏差并不需要以牺牲整体检索质量为代价。

3. 表示层面的转变

对文档嵌入的分析显示，微调重塑了学习到的位置偏好：

预训练基础模型仅表现出轻微且特定于模型的初始倾向（例如，编码器中的轻微首因效应，某些解码器中的近因效应）。
微调后，文档段落的相似度分布发生转变，以与训练分布保持一致。例如，开头训练的模型与第一段落的相似度更高，而结尾训练的模型与最后段落的相似度更高。
均匀训练压缩了这些分布，导致跨位置的相似度曲线更加平坦。

4. 基准特异性

该研究观察到，标准基准分数（例如 BEIR）在关于鲁棒性方面可能会产生误导。证据高度集中在开头的基准（如 FEVER）偏向于开头训练的模型，掩盖了它们对出现在其他地方的证据缺乏鲁棒性的事实。相反，在平衡数据上训练的模型在不同证据位置的表现更加一致。

意义与主张

该论文声称确定了训练位置分布是检索级位置偏差中的一个主要可控因素，挑战了这种偏差是密集检索器架构固有且不可改变属性的观点。

因果证据：通过直接操纵训练数据的位置分布，作者提供了直接证据，证明数据策展驱动了偏差的方向，而不仅仅是架构或预训练。
实际缓解：该研究提出平衡数据策展作为一种实用且有效的策略来缓解位置偏差。它表明，只需在微调过程中确保查询相关证据在文档位置之间均匀分布，就能产生对证据位置具有鲁棒性且保持高检索性能的模型。
架构独立性：研究结果表明，架构因素（如位置编码或池化策略）并非偏差的唯一决定因素；即使具有根本不同位置处理机制的模型，也可以通过训练数据被引导至特定的偏差模式。

作者得出结论，虽然既有的架构或预训练倾向在某些模型中依然存在，但检索级偏差的方向在很大程度上是可塑的，可以通过受控的训练数据分布进行重新定向。

Is Position Bias in Dense Retrievers Built In-or Learned from Data?