Auteurs originaux : Daegon Yu, SeungYoon Han, Woomyoung Park

Publié 2026-05-27✓ Author reviewed ⓘ

📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Daegon Yu, SeungYoon Han, Woomyoung Park

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

La Grande Question : Le Biais est-il Inné ou Acquise ?

Imaginez que vous embauchiez un bibliothécaire pour trouver des faits spécifiques au sein d'une immense bibliothèque de livres. Vous remarquez un problème étrange : ce bibliothécaire est terrible pour trouver des informations si elles se situent au milieu ou tout à la fin d'un livre. Il trouve presque toujours la réponse si elle se trouve sur la première page, mais si la réponse est à la page 500, il l'ignore souvent complètement.

Ceci est appelé le Biais de Position. Pendant longtemps, les chercheurs ont pensé que ce biais était « câblé » dans le cerveau du bibliothécaire (l'architecture du modèle informatique), comme une limitation physique de ses yeux ou de ses oreilles. Ils pensaient : « Oh, le bibliothécaire ne peut tout simplement pas voir au-delà de la première page. »

Ce document pose une question différente : Et si le bibliothécaire n'était pas né avec cette mauvaise habitude ? Et s'il l'avait simplement apprise des livres sur lesquels il a été formé ?

L'Expérience : Entraîner le Bibliothécaire

Pour tester cela, les chercheurs ont créé un camp d'entraînement spécial pour huit types différents de bibliothécaires (modèles informatiques). Ces bibliothécaires avaient des « structures cérébrales » différentes (certains étaient des encodeurs, d'autres des décodeurs, certains utilisaient des astuces mathématiques différentes), de sorte qu'ils auraient dû avoir des tendances naturelles différentes.

Les chercheurs ont mis en place quatre scénarios d'entraînement distincts en utilisant des données synthétiques :

Le Camp « Début-Seulement » : Ils n'ont montré au bibliothécaire que des questions dont la réponse se trouvait tout au début du texte.
Le Camp « Milieu-Seulement » : Ils n'ont montré que des questions dont la réponse se trouvait au milieu.
Le Camp « Fin-Seulement » : Ils n'ont montré que des questions dont la réponse se trouvait tout à la fin.
Le Camp « Équilibré » : Ils ont montré un mélange des trois, afin que le bibliothécaire apprenne que les réponses pouvaient se trouver n'importe où.

Les Résultats : Le Bibliothécaire Imitte le Professeur

Les résultats ont été surprenants et très clairs. Les bibliothécaires ne se sont pas accrochés à leurs structures cérébrales « naturelles » ; ils ont complètement adopté les habitudes de leur camp d'entraînement.

Les Bibliothécaires « Début-Seulement » sont devenus obsédés par le début du texte. Si la réponse s'y trouvait, ils étaient excellents. Si elle était à la fin, ils échouaient lamentablement.
Les Bibliothécaires « Fin-Seulement » ont retourné la situation. Ils ignoraient le début et sont devenus experts pour trouver des réponses tout à la fin du document.
Les Bibliothécaires « Milieu-Seulement » ont appris à chercher spécifiquement au milieu.

L'Analogie : Imaginez que vous apprenez à un chien à s'asseoir uniquement lorsque vous vous tenez du côté gauche de la pièce. Si vous vous déplacez ensuite du côté droit et dites « Assis », le chien ne le fera pas. Le chien n'est pas « mauvais » pour s'asseoir ; il a simplement appris que « Assis » ne se produit que du côté gauche. De même, ces modèles d'IA ont appris que les « Informations Pertinentes » n'existaient que là où les données d'entraînement leur avaient dit de chercher.

Même les bibliothécaires qui commençaient avec une légère préférence naturelle (comme une légère tendance à regarder le début) ont complètement changé leur comportement pour correspondre aux données d'entraînement.

La Solution : Le Régime « Équilibré »

Le document a également testé ce qui se passe si vous donnez au bibliothécaire un régime équilibré (le « Camp Équilibré »).

Le Résultat : Lorsqu'ils étaient entraînés sur un mélange d'exemples de début, de milieu et de fin, les bibliothécaires sont devenus beaucoup plus fiables. Ils ont cessé d'ignorer des parties du livre.
Le Compromis : Cela les a-t-il rendus plus lents ou globalement pires ? Non. Ils sont restés tout aussi bons pour trouver des réponses que les biaisés, mais ils n'avaient plus de « angles morts ». Ils pouvaient trouver la réponse qu'elle soit à la page 1 ou à la page 500.

Pourquoi Cela Compte

Le document conclut que le Biais de Position n'est pas un défaut permanent dans la conception de la machine. C'est une habitude apprise à partir des données qui lui ont été fournies.

Le Problème : De nombreux jeux de données réels (comme les articles de presse ou les journaux de recherche) placent naturellement les informations les plus importantes au début. Si vous entraînez une IA sur cela, elle apprend à ignorer le reste du document.
La Solution : Vous n'avez pas besoin de reconstruire le cerveau de l'IA ou de changer ses mathématiques complexes. Vous devez simplement mieux sélectionner vos données d'entraînement. En vous assurant que l'IA voit des exemples où la réponse se trouve au milieu et à la fin, vous pouvez « désapprendre » le biais et créer un récupérateur plus robuste et plus équitable.

En résumé : Le biais n'est pas inné ; il est appris. Et tout comme un élève peut désapprendre de mauvaises habitudes d'étude si vous lui donnez les bons exercices, ces modèles d'IA peuvent désapprendre le biais de position si vous leur donnez des données d'entraînement équilibrées.

Résumé technique : Biais de position dans les récupérateurs denses

Énoncé du problème

Les récupérateurs denses, qui sont au cœur de la réponse aux questions en domaine ouvert et de la génération augmentée par récupération (RAG), présentent un biais de position systématique. Ils favorisent de manière disproportionnée les documents où les informations pertinentes par rapport à la requête apparaissent près du début, entraînant une dégradation significative des performances lorsque les preuves pertinentes se situent au milieu ou à la fin d'un document.

Bien que des recherches antérieures aient empiriquement observé ce biais à travers diverses étapes d'entraînement et encodages de position, la cause sous-jacente reste floue. Les explications précédentes se sont concentrées sur des facteurs architecturaux, tels que l'attention causale dans les modèles autorégressifs ou des motifs spécifiques d'attention sur les tokens de regroupement. Cependant, les récupérateurs denses basés sur des encodeurs ne possèdent pas de masquage causal et présentent néanmoins un fort « biais de primauté », ce qui suggère que l'architecture seule ne peut expliquer pleinement le phénomène. Une lacune critique existe dans la compréhension de la mesure dans laquelle la distribution positionnelle des données de fine-tuning façonne ce biais, car les travaux antérieurs se sont largement appuyés sur l'observation plutôt que sur la manipulation directe des distributions de données d'entraînement.

Méthodologie

Pour isoler l'effet des données d'entraînement sur le biais de position au niveau de la récupération, les auteurs ont construit un cadre expérimental contrôlé impliquant des ensembles de données synthétiques ciblant la position et diverses architectures de modèles.

1. Construction de données contrôlées par la position

Les auteurs ont développé un pipeline en trois étapes pour générer des données d'entraînement où l'emplacement des preuves pertinentes par rapport à la requête est strictement contrôlé :

Préparation du corpus : En utilisant Wikipédia en anglais, les documents ont été stratifiés par longueur en cinq classes (256–8192 caractères) et divisés en trois segments égaux : début, milieu et fin.
Génération de requêtes ciblées par la position : En utilisant GPT-4o-mini avec une incitation conditionnée par un persona, des requêtes ont été générées pour être répondables uniquement par un segment cible spécifique (début, milieu ou fin).
Vérification par multi-réclassement : Pour s'assurer que les requêtes générées étaient véritablement exclusives au segment cible, un panel de trois réclasseurs à encodeur croisé (BGE, GTE, Jina) a vérifié les candidats. Un candidat n'était conservé que si tous les réclasseurs notaient le segment cible au moins $\delta=0,3$ de plus que le segment non cible le plus fort.
Échantillonnage équilibré : Le pool résultant conservé était naturellement biaisé vers le début. Pour créer des ensembles d'entraînement contrôlés, les auteurs ont sous-échantillonné au sein des cellules longueur-position afin d'assurer une représentation égale des classes de longueur et des positions cibles pour des configurations expérimentales spécifiques.

2. Conception expérimentale

L'étude a affiné (fine-tuned) huit modèles préentraînés architecturalement divers (incluant BERT, Longformer, ModernBERT, GPT-2, BLOOM, TinyLlama et Qwen3) selon quatre configurations d'entraînement distinctes :

Configurations concentrées : Données d'entraînement où 100 % des requêtes ciblaient le début (MB), le milieu (MM) ou la fin (ME) des documents.
Configuration uniforme (MU) : Données d'entraînement où les requêtes étaient réparties uniformément sur les trois positions.

Les modèles ont été évalués sur :

Des benchmarks sensibles à la position : SQuAD-PosQ, FineWeb-PosQ et PosIR, qui permettent une mesure des performances basée sur l'emplacement spécifique des preuves.
Des benchmarks de récupération standards : Quatre sous-ensembles BEIR (SciFact, HotpotQA, FEVER, Climate-FEVER) pour évaluer les performances dans des contextes conventionnels où l'emplacement des preuves n'est pas contrôlé.
Analyse des représentations : Analyses de similarité cosinus entre les paires requête-document et les embeddings de segments de document pour déterminer si un biais existe au niveau des embeddings.

Résultats clés

1. La distribution d'entraînement dicte la direction du biais

La découverte principale est que le biais de position au niveau de la récupération suit la distribution des données d'entraînement, indépendamment de l'architecture du modèle.

Les modèles entraînés sur des données biaisées vers le début (MB) favorisaient systématiquement les preuves précoces.
Les modèles entraînés sur des données biaisées vers le milieu (MM) favorisaient les preuves du milieu.
Les modèles entraînés sur des données biaisées vers la fin (ME) favorisaient les preuves tardives.
Ce changement directionnel s'est produit sur les huit modèles, y compris ceux avec différents encodages de position (APE, RoPE, ALiBi, NoPE) et stratégies de regroupement (CLS, Moyenne, Dernier token).

2. Atténuation par un entraînement équilibré

L'entraînement équilibré en position (MU) a considérablement réduit la sensibilité positionnelle sans sacrifier les performances de récupération.

Sur les benchmarks sensibles à la position, l'entraînement équilibré a réduit l'Indice de Sensibilité Positionnelle (PSI) de 57 à 87 % par rapport à la configuration biaisée la plus défavorable pour tous les modèles.
Par exemple, sur SQuAD-PosQ, le PSI pour GPT-2-medium est passé de 0,592 (entraîné sur le début) à 0,080 (entraîné uniformément).
Crucialement, les modèles entraînés uniformément ont maintenu des performances moyennes de récupération compétitives (nDCG@10), atteignant souvent les scores les plus élevés ou presque les plus élevés sur les benchmarks. Cela indique que la réduction du biais ne nécessite pas de compromis sur la qualité globale de la récupération.

3. Déplacements au niveau des représentations

L'analyse des embeddings de documents a révélé que le fine-tuning redéfinit les préférences positionnelles apprises :

Les modèles de base préentraînés ne montraient que de légères tendances initiales spécifiques au modèle (par exemple, une légère primauté dans les encodeurs, une récence dans certains décodeurs).
Après le fine-tuning, les profils de similarité des segments de document se sont déplacés pour s'aligner sur la distribution d'entraînement. Par exemple, les modèles entraînés sur le début montraient une similarité plus élevée avec le premier segment, tandis que les modèles entraînés sur la fin montraient une similarité plus élevée avec les segments finaux.
L'entraînement uniforme a comprimé ces profils, résultant en des courbes de similarité plus plates sur les positions.

4. Spécificité des benchmarks

L'étude a observé que les scores de benchmarks standards (par exemple, BEIR) peuvent être trompeurs concernant la robustesse. Les benchmarks avec des preuves fortement concentrées au début (comme FEVER) favorisaient les modèles entraînés sur le début, masquant leur manque de robustesse face à des preuves apparaissant ailleurs. À l'inverse, les modèles entraînés sur des données équilibrées se sont comportés de manière plus cohérente à travers différents emplacements de preuves.

Signification et revendications

L'article revendique d'identifier la distribution positionnelle d'entraînement comme un facteur contrôlable majeur dans le biais de position au niveau de la récupération, remettant en question l'idée que ce biais est une propriété inhérente et immuable des architectures de récupérateurs denses.

Preuve causale : En manipulant directement la distribution positionnelle des données d'entraînement, les auteurs fournissent une preuve directe que l'élaboration des données détermine la direction du biais, plutôt que simplement l'architecture ou le préentraînement.
Atténuation pratique : L'étude propose l'élaboration de données équilibrées comme une stratégie pratique et efficace pour atténuer le biais de position. Elle démontre que garantir simplement que les preuves pertinentes pour la requête soient réparties uniformément sur les positions des documents pendant le fine-tuning peut produire des modèles robustes à l'emplacement des preuves tout en maintenant de hautes performances de récupération.
Indépendance architecturale : Les résultats suggèrent que les facteurs architecturaux (tels que les encodages de position ou les stratégies de regroupement) ne sont pas les seuls déterminants du biais ; même des modèles avec des mécanismes de traitement positionnel fondamentalement différents peuvent être orientés vers des schémas de biais spécifiques grâce aux données d'entraînement.

Les auteurs concluent que, bien que les tendances architecturales ou de préentraînement préexistantes persistent dans certains modèles, la direction du biais au niveau de la récupération est largement malléable et peut être redirigée par des distributions de données d'entraînement contrôlées.

Is Position Bias in Dense Retrievers Built In-or Learned from Data?