原著者： Daegon Yu, SeungYoon Han, Woomyoung Park

公開日 2026-05-27✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Daegon Yu, SeungYoon Han, Woomyoung Park

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

以下は、この論文を平易な言葉と創造的な比喩を用いて解説したものです。

大きな問い：バイアスは組み込まれているのか、それとも学習されたものか？

想像してください。あなたが膨大な数の本が収められた巨大な図書館の中から特定の事実を見つけるために、司書を雇う場面です。すると、奇妙な問題に気づきます。この司書は、本の中盤や最後のページにある情報を見つけるのが極めて苦手なのです。最初のページに答えがあれば、ほぼ確実に見つけ出しますが、500 ページ目に答えがあれば、見逃してしまうことがほとんどです。

これを位置バイアスと呼びます。長らく研究者たちは、このバイアスが司書の脳（コンピュータモデルのアーキテクチャ）に「ハードワイヤー（組み込み）」されており、目や耳の物理的な限界のようなものだと考えていました。「ああ、この司書は単に最初のページ以降が見えていないのだ」と。

しかし、この論文は異なる問いを投げかけます：もしこの司書が生まれつきこの悪い習慣を持っていたのではなく、訓練に使われた本からそれを学習しただけだとしたらどうでしょうか？

実験：司書の訓練

これを検証するために、研究者たちは 8 種類の異なる司書（コンピュータモデル）のための特別な訓練キャンプを設けました。これらの司書はそれぞれ異なる「脳の構造」（エンコーダー型、デコーダー型、あるいは異なる数学的トリックを使用する型など）を持っていたため、本来は異なる自然な傾向を持っていたはずです。

研究者たちは、合成データを用いて 4 つの明確な訓練シナリオを設定しました。

「開始のみ」キャンプ：答えがテキストの最初にある質問のみを司書に見せました。
「中間のみ」キャンプ：答えが中間にある質問のみを見せました。
「終了のみ」キャンプ：答えがテキストの最後にある質問のみを見せました。
「バランス型」キャンプ：上記 3 つを混ぜて見せ、答えはどこにでもあり得ることを司書に学習させました。

結果：司書は教師を模倣する

結果は驚くほど明確でした。司書たちは自分の「自然な」脳の構造に固執するのではなく、訓練キャンプの習慣を完全に受け継いでしまったのです。

「開始のみ」の司書たちは、テキストの開始部分に執着するようになりました。答えがそこにあれば素晴らしい結果を出しますが、終わりにあれば見事に失敗します。
「終了のみ」の司書たちは、状況を一転させました。開始部分を無視し、文書の最後の部分にある答えを見つける専門家となりました。
「中間のみ」の司書たちは、特に中間部分を見ることを学習しました。

比喩：あなたが犬に、部屋の左側に立っているときだけ「座れ」と命令して座ることを教えた場面を想像してください。その後、あなたが右側に移動して「座れ」と言っても、犬は座りません。犬は「座る」ことが下手なのではなく、「座れ」は左側でのみ起こると学習しただけなのです。同様に、これらの AI モデルも、「関連する情報」は訓練データが示した場所だけに存在すると学習してしまったのです。

わずかな自然な好み（開始部分を見る傾向など）から始めていた司書さえも、訓練データに合わせて行動を完全に変えてしまいました。

解決策：「バランス型」の食事

この論文では、司書にバランスの取れた食事（「バランス型」キャンプ）を与えた場合に何が起こるかもテストしました。

結果：開始、中間、終了の例を混ぜて訓練された司書たちは、はるかに信頼性が高まりました。彼らは本の特定の部分を無視しなくなりました。
トレードオフ：これによって彼らが遅くなったり、全体的に劣ったりしたでしょうか？いいえ、そうではありません。彼らはバイアスがかかった司書たちと同じくらい答えを見つけるのが上手でしたが、「盲点」を持たなくなりました。答えが 1 ページ目であれ 500 ページ目であれ、見つけることができました。

なぜこれが重要なのか

この論文は結論として、位置バイアスは機械の設計における永続的な欠陥ではないと述べています。それは、与えられたデータから学習された習慣に過ぎません。

問題点：多くの実世界のデータセット（ニュース記事や検索ログなど）は、自然と最も重要な情報を冒頭に配置しています。これに基づいて AI を訓練すると、AI は文書の残りの部分を無視することを学習してしまいます。
解決策：AI の脳を再構築したり、複雑な数学を変更したりする必要はありません。必要なのは、訓練データをより適切に選定することだけです。AI が答えが中間や最後にある例を見るようにすることで、バイアスを「学習し直す（アンラーニング）」ことができ、より堅牢で公平な検索器を作成できます。

要約すれば：バイアスは組み込まれているのではなく、学習されたものです。そして、学生が適切な練習問題を与えられれば悪い勉強習慣を学習し直すことができるのと同様に、これらの AI モデルもバランスの取れた訓練データを与えられれば、位置バイアスを学習し直すことができるのです。

技術的サマリー：密 retriever における位置バイアス

問題定義

オープンドメイン質問応答や検索拡張生成（RAG）の中核をなす密 retriever は、体系的な位置バイアスを示す。これらは、クエリに関連する情報が文書の冒頭付近に現れる文書を過剰に好む傾向があり、関連証拠が文書の中央や末尾に位置する場合、性能が著しく低下する。

先行研究は、このバイアスが様々な学習段階や位置エンコーディングにおいて経験的に観察されることを示しているが、その根本的な原因は不明なままである。従来の説明は、自己回帰モデルにおける因果的アテンションや特定のプーリングトークンアテンションパターンといったアーキテクチャ的要因に焦点を当ててきた。しかし、エンコーダーベースの密 retriever は因果的マスキングを持たないにもかかわらず、依然として強い「優先バイアス（primacy bias）」を示すため、アーキテクチャのみがこの現象を完全に説明できるわけではない。先行研究が主に観察に依存し、学習データの分布を直接操作するアプローチをほとんど取らなかったことから、ファインチューニングデータの位置分布がどの程度このバイアスを形成するかを理解する上で、重要なギャップが存在する。

手法

学習データが検索レベルの位置バイアスに与える影響を分離するため、著者は合成データおよび位置をターゲットとしたデータセットと多様なモデルアーキテクチャを含む制御された実験フレームワークを構築した。

1. 位置制御データ構築

著者は、クエリに関連する証拠の場所を厳密に制御した学習データを生成するための 3 段階パイプラインを開発した。

コーパス準備: 英語版ウィキペディアを使用し、文書を長さ（256〜8192 文字）に応じて 5 つのビンに層化し、さらに冒頭、中央、末尾の 3 つの等しいセグメントに分割した。
位置ターゲット型クエリ生成: GPT-4o-mini を用いて、ペルソナ条件付きプロンプトにより、特定のターゲットセグメント（冒頭、中央、または末尾）のみで回答可能なクエリを生成した。
マルチリランカー検証: 生成されたクエリが本当にターゲットセグメントにのみ固有であることを確認するため、3 つのクロスエンコーダリランカー（BGE、GTE、Jina）のパネルが候補を検証した。ターゲットセグメントのスコアが、最も強力な非ターゲットセグメントよりも少なくとも $\delta=0.3$ 高い場合にのみ、候補を保持した。
バランスサンプリング: 結果として得られた保持プールは、自然と冒頭側に偏っていた。制御された学習セットを作成するため、著者は長さ - 位置セル内でダウンサンプリングを行い、特定の実験設定において長さビンとターゲット位置が均等に表現されるようにした。

2. 実験設計

本研究では、4 つの異なる学習設定の下で8 つのアーキテクチャ的に多様な事前学習モデル（BERT、Longformer、ModernBERT、GPT-2、BLOOM、TinyLlama、Qwen3 を含む）をファインチューニングした。

集中設定: クエリの 100% が文書の冒頭（MB）、中央（MM）、または末尾（ME）をターゲットとした学習データ。
均一設定（MU）: クエリが 3 つの位置全体に均等に分布した学習データ。

モデルの評価は以下の基準で行われた。

位置認識ベンチマーク: 証拠の特定の場所に基づいて性能を測定できる SQuAD-PosQ、FineWeb-PosQ、PosIR。
標準検索ベンチマーク: 証拠の場所が制御されていない従来の設定下での性能を評価するための 4 つの BEIR サブセット（SciFact、HotpotQA、FEVER、Climate-FEVER）。
表現分析: クエリ - 文書ペアと文書セグメント埋め込み間のコサイン類似度分析を行い、埋め込みレベルにバイアスが存在するかを判定した。

主要な結果

1. 学習分布がバイアスの方向を決定する

主要な発見は、検索レベルの位置バイアスがモデルのアーキテクチャに関係なく、学習データの分布に従うという点である。

冒頭偏りのデータ（MB）で学習したモデルは、一貫して早期の証拠を好んだ。
中央偏りのデータ（MM）で学習したモデルは、中央の証拠を好んだ。
末尾偏りのデータ（ME）で学習したモデルは、後の証拠を好んだ。
この方向性のシフトは、異なる位置エンコーディング（APE、RoPE、ALiBi、NoPE）やプーリング戦略（CLS、Mean、Last-token）を持つ 8 つのモデルすべてで発生した。

2. バランス学習による軽減

**位置バランスの取れた学習（MU）**は、検索性能を犠牲にすることなく、位置感応性を大幅に軽減した。

位置認識ベンチマークにおいて、バランス学習は、すべてのモデルにおいて最悪の偏り設定と比較して、位置感応性指数（PSI）を**57〜87%**削減した。
例えば、SQuAD-PosQ において、GPT-2-medium の PSI は、冒頭学習モデルで 0.592 から、均一学習モデルで 0.080 に低下した。
決定的なことに、均一学習モデルは**競争力のある平均検索性能（nDCG@10）**を維持し、ベンチマーク全体で最高またはそれに準ずるスコアを達成することが多かった。これは、バイアスを軽減するために全体の検索品質とのトレードオフが必要ではないことを示している。

3. 表現レベルのシフト

文書埋め込みの分析により、ファインチューニングが学習された位置好みを再形成することが明らかになった。

事前学習ベースモデルは、エンコーダーではわずかな優先性、一部のデコーダーでは最近性を示すなど、モデル固有の軽微な初期傾向のみを示した。
ファインチューニング後、文書セグメントの類似度プロファイルは学習分布に合わせてシフトした。例えば、冒頭学習モデルは最初のセグメントとの類似度が高くなり、末尾学習モデルは最後のセグメントとの類似度が高くなった。
均一学習はこれらのプロファイルを圧縮し、位置全体にわたって平坦な類似度曲線をもたらした。

4. ベンチマークの特殊性

本研究は、標準ベンチマークスコア（例：BEIR）が堅牢性に関して誤解を招く可能性があることを観察した。証拠が冒頭に強く集中しているベンチマーク（FEVER など）は、冒頭学習モデルを優遇し、他の場所に現れる証拠に対する堅牢性の欠如を隠蔽した。逆に、バランスの取れたデータで学習したモデルは、異なる証拠の場所においてより一貫したパフォーマンスを示した。

意義と主張

本論文は、学習位置分布を、検索レベルの位置バイアスにおける主要な制御可能な要因として特定し、このバイアスが密 retriever アーキテクチャの固有で不変の性質であるという概念に挑戦する。

因果的証拠: 学習データの位置分布を直接操作することで、著者はアーキテクチャや事前学習だけでなく、データキュレーションがバイアスの方向を駆動することを直接的に示した。
実践的軽減策: 本研究は、バランスの取れたデータキュレーションを位置バイアスを軽減するための実用的かつ効果的な戦略として提案している。ファインチューニング中にクエリに関連する証拠が文書位置全体に均等に分布するようにするだけで、証拠の場所に対して堅牢でありながら高い検索性能を維持するモデルを生成できることを実証した。
アーキテクチャからの独立性: 知見は、アーキテクチャ的要因（位置エンコーディングやプーリング戦略など）がバイアスの唯一の決定要因ではないことを示唆している。根本的に異なる位置処理メカニズムを持つモデルであっても、学習データを通じて特定のバイアスパターンに誘導できる。

著者は、既存のアーキテクチャ的または事前学習の傾向が一部のモデルに残留しているものの、検索レベルのバイアスの方向は大きく可変であり、制御された学習データ分布を通じて再方向付け可能であると結論づけている。

Is Position Bias in Dense Retrievers Built In-or Learned from Data?