A Grande Pergunta: O Viés é Inato ou Aprendido?

Imagine que você está contratando um bibliotecário para encontrar fatos específicos dentro de uma biblioteca massiva de livros. Você nota um problema estranho: este bibliotecário é péssimo em encontrar informações se elas estiverem localizadas no meio ou no final de um livro. Eles quase sempre encontram a resposta se estiver na primeira página, mas se a resposta estiver na página 500, frequentemente a perdem completamente.

Isso é chamado de Viés de Posição. Por muito tempo, pesquisadores acreditaram que esse viés estava "cabeçado" no cérebro do bibliotecário (a arquitetura do modelo de computador), como uma limitação física de seus olhos ou ouvidos. Eles pensavam: "Ah, o bibliotecário simplesmente não consegue ver além da primeira página."

Este artigo faz uma pergunta diferente: E se o bibliotecário não nascer com esse mau hábito? E se ele apenas o aprendeu dos livros em que foi treinado?

O Experimento: Treinando o Bibliotecário

Para testar isso, os pesquisadores criaram um campo de treinamento especial para oito tipos diferentes de bibliotecários (modelos de computador). Esses bibliotecários tinham diferentes "estruturas cerebrais" (alguns eram codificadores, alguns decodificadores, alguns usavam truques matemáticos diferentes), então deveriam ter tendências naturais diferentes.

Os pesquisadores estabeleceram quatro cenários de treinamento distintos usando dados sintéticos:

O Campo "Apenas Início": Eles mostraram ao bibliotecário apenas perguntas onde a resposta estava no início do texto.
O Campo "Apenas Meio": Eles mostraram apenas perguntas onde a resposta estava no meio.
O Campo "Apenas Fim": Eles mostraram apenas perguntas onde a resposta estava no final.
O Campo "Equilibrado": Eles mostraram uma mistura das três, para que o bibliotecário aprendesse que as respostas poderiam estar em qualquer lugar.

Os Resultados: O Bibliotecário Copia o Professor

Os resultados foram surpreendentes e muito claros. Os bibliotecários não se prenderam às suas estruturas cerebrais "naturais"; eles adotaram completamente os hábitos de seu campo de treinamento.

Os Bibliotecários "Apenas Início" ficaram obcecados pelo início do texto. Se a resposta estivesse lá, eles eram ótimos. Se estivesse no final, falhavam miseravelmente.
Os Bibliotecários "Apenas Fim" inverteram o roteiro. Eles ignoraram o início e tornaram-se especialistas em encontrar respostas no final do documento.
Os Bibliotecários "Apenas Meio" aprenderam a procurar especificamente no meio.

A Analogia: Imagine que você ensina um cachorro a sentar apenas quando você está de pé no lado esquerdo do quarto. Se você então se move para o lado direito e diz "Senta", o cachorro não o fará. O cachorro não é "ruim" em sentar; ele apenas aprendeu que "Senta" só acontece no lado esquerdo. Da mesma forma, esses modelos de IA aprenderam que "Informação Relevante" só existe onde os dados de treinamento lhes disseram para procurar.

Até mesmo os bibliotecários que começaram com uma leve preferência natural (como uma leve tendência a olhar para o início) mudaram completamente seu comportamento para corresponder aos dados de treinamento.

A Solução: A Dieta "Equilibrada"

O artigo também testou o que acontece se você alimentar o bibliotecário com uma dieta equilibrada (o "Campo Equilibrado").

O Resultado: Quando treinados com uma mistura de exemplos de início, meio e fim, os bibliotecários tornaram-se muito mais confiáveis. Eles pararam de ignorar partes do livro.
A Troca: Isso os tornou mais lentos ou piores no geral? Não. Eles permaneceram tão bons em encontrar respostas quanto os enviesados, mas não tinham os "pontos cegos". Eles podiam encontrar a resposta, seja na página 1 ou na página 500.

Por Que Isso Importa

O artigo conclui que o Viés de Posição não é um defeito permanente no design da máquina. É um hábito aprendido a partir dos dados em que foi alimentado.

O Problema: Muitos conjuntos de dados do mundo real (como artigos de notícias ou registros de pesquisa) colocam naturalmente as informações mais importantes no início. Se você treinar uma IA nisso, ela aprende a ignorar o resto do documento.
A Solução: Você não precisa reconstruir o cérebro da IA ou alterar sua matemática complexa. Você apenas precisa curar melhor seus dados de treinamento. Ao garantir que a IA veja exemplos onde a resposta está no meio e no final, você pode "desaprender" o viés e criar um recuperador mais robusto e justo.

Em resumo: O viés não é inato; é aprendido. E assim como um aluno pode desaprender maus hábitos de estudo se receber os problemas de prática certos, esses modelos de IA podem desaprender o viés de posição se receberem dados de treinamento equilibrados.

Resumo Técnico: Viés Posicional em Recuperadores Densos

Declaração do Problema

Recuperadores densos, que são centrais para a resposta a perguntas em domínio aberto e geração aumentada por recuperação (RAG), exibem um viés posicional sistemático. Eles favorecem desproporcionalmente documentos onde informações relevantes à consulta aparecem perto do início, levando a uma degradação significativa do desempenho quando evidências relevantes estão localizadas no meio ou no final de um documento.

Embora pesquisas anteriores tenham observado empiricamente esse viés em várias etapas de treinamento e codificações posicionais, a causa subjacente permanece obscura. Explicações anteriores focaram em fatores arquitetônicos, como atenção causal em modelos autoregressivos ou padrões específicos de atenção de tokens de agrupamento. No entanto, recuperadores densos baseados em codificadores carecem de mascaramento causal, mas ainda exibem forte "viés de primazia", sugerindo que a arquitetura sozinha não pode explicar totalmente o fenômeno. Existe uma lacuna crítica na compreensão da extensão em que a distribuição posicional dos dados de ajuste fino molda esse viés, já que trabalhos anteriores confiaram amplamente na observação em vez da manipulação direta das distribuições dos dados de treinamento.

Metodologia

Para isolar o efeito dos dados de treinamento sobre o viés posicional no nível da recuperação, os autores construíram um quadro experimental controlado envolvendo conjuntos de dados sintéticos direcionados à posição e arquiteturas de modelos diversas.

1. Construção de Dados Controlados por Posição

Os autores desenvolveram um pipeline de três etapas para gerar dados de treinamento onde a localização da evidência relevante à consulta é estritamente controlada:

Preparação do Corpus: Usando a Wikipedia em inglês, os documentos foram estratificados por comprimento em cinco faixas (256–8192 caracteres) e divididos em três segmentos iguais: início, meio e fim.
Geração de Consultas Direcionadas à Posição: Usando o GPT-4o-mini com prompts condicionados a personas, foram geradas consultas que só poderiam ser respondidas por um segmento-alvo específico (início, meio ou fim).
Verificação por Múltiplos Reordenadores: Para garantir que as consultas geradas fossem verdadeiramente exclusivas ao segmento-alvo, um painel de três reordenadores de codificadores cruzados (BGE, GTE, Jina) verificou os candidatos. Um candidato foi mantido apenas se todos os reordenadores pontuassem o segmento-alvo pelo menos $\delta=0,3$ pontos acima do segmento não-alvo mais forte.
Amostragem Balanceada: O pool resultante mantido era naturalmente enviesado para o início. Para criar conjuntos de treinamento controlados, os autores fizeram a subamostragem dentro das células de comprimento-posição para garantir representação igual de faixas de comprimento e posições-alvo para configurações experimentais específicas.

2. Design Experimental

O estudo realizou o ajuste fino de oito modelos pré-treinados arquitetonicamente diversos (incluindo BERT, Longformer, ModernBERT, GPT-2, BLOOM, TinyLlama e Qwen3) sob quatro configurações de treinamento distintas:

Configurações Concentradas: Dados de treinamento onde 100% das consultas visavam o início (MB), o meio (MM) ou o fim (ME) dos documentos.
Configuração Uniforme (MU): Dados de treinamento onde as consultas estavam distribuídas uniformemente entre as três posições.

Os modelos foram avaliados em:

Benchmarks Conscientes de Posição: SQuAD-PosQ, FineWeb-PosQ e PosIR, que permitem a medição de desempenho com base na localização específica da evidência.
Benchmarks Padrão de Recuperação: Quatro subconjuntos do BEIR (SciFact, HotpotQA, FEVER, Climate-FEVER) para avaliar o desempenho em configurações convencionais onde a localização da evidência não é controlada.
Análise de Representação: Análises de similaridade cosseno entre pares consulta-documento e incorporações de segmentos de documento para determinar se o viés existe no nível da incorporação.

Principais Resultados

1. A Distribuição de Treinamento Determina a Direção do Viés

A descoberta principal é que o viés posicional no nível da recuperação segue a distribuição dos dados de treinamento, independentemente da arquitetura do modelo.

Modelos treinados com dados enviesados para o início (MB) consistentemente favoreceram evidências iniciais.
Modelos treinados com dados enviesados para o meio (MM) favoreceram evidências do meio.
Modelos treinados com dados enviesados para o fim (ME) favoreceram evidências posteriores.
Essa mudança direcional ocorreu em todos os oito modelos, incluindo aqueles com diferentes codificações posicionais (APE, RoPE, ALiBi, NoPE) e estratégias de agrupamento (CLS, Média, Último-token).

2. Mitigação via Treinamento Balanceado

O treinamento balanceado por posição (MU) reduziu significativamente a sensibilidade posicional sem sacrificar o desempenho de recuperação.

Em benchmarks conscientes de posição, o treinamento balanceado reduziu o Índice de Sensibilidade Posicional (PSI) em 57–87% em comparação com a configuração enviesada mais ruim para todos os modelos.
Por exemplo, no SQuAD-PosQ, o PSI para o GPT-2-medium caiu de 0,592 (treinado para o início) para 0,080 (treinado uniformemente).
Crucialmente, os modelos treinados uniformemente mantiveram desempenho médio competitivo de recuperação (nDCG@10), frequentemente alcançando as pontuações mais altas ou próximas das mais altas em todos os benchmarks. Isso indica que reduzir o viés não requer um compromisso na qualidade geral da recuperação.

3. Mudanças no Nível de Representação

A análise das incorporações de documentos revelou que o ajuste fino remodela as preferências posicionais aprendidas:

Modelos base pré-treinados mostraram apenas tendências iniciais leves e específicas do modelo (por exemplo, leve primazia em codificadores, recência em alguns decodificadores).
Após o ajuste fino, os perfis de similaridade dos segmentos de documento mudaram para se alinhar com a distribuição de treinamento. Por exemplo, modelos treinados para o início mostraram maior similaridade com o primeiro segmento, enquanto modelos treinados para o fim mostraram maior similaridade com os segmentos finais.
O treinamento uniforme comprimiu esses perfis, resultando em curvas de similaridade mais planas entre as posições.

4. Especificidade do Benchmark

O estudo observou que as pontuações de benchmarks padrão (por exemplo, BEIR) podem ser enganosas quanto à robustez. Benchmarks com evidências fortemente concentradas no início (como o FEVER) favoreceram modelos treinados para o início, mascarando sua falta de robustez a evidências que aparecem em outros lugares. Por outro lado, modelos treinados com dados balanceados performaram de forma mais consistente entre diferentes localizações de evidência.

Significado e Alegações

O artigo afirma identificar a distribuição posicional de treinamento como um fator controlável majoritário no viés posicional no nível da recuperação, desafiando a noção de que esse viés é uma propriedade inerente e imutável das arquiteturas de recuperadores densos.

Evidência Causal: Ao manipular diretamente a distribuição posicional dos dados de treinamento, os autores fornecem evidência direta de que a curadoria de dados impulsiona a direção do viés, e não apenas a arquitetura ou o pré-treinamento.
Mitigação Prática: O estudo propõe a curadoria de dados balanceada como uma estratégia prática e eficaz para mitigar o viés posicional. Demonstra que simplesmente garantir que a evidência relevante à consulta seja distribuída uniformemente entre as posições do documento durante o ajuste fino pode produzir modelos robustos à localização da evidência, mantendo alto desempenho de recuperação.
Independência Arquitetônica: As descobertas sugerem que fatores arquitetônicos (como codificações posicionais ou estratégias de agrupamento) não são os únicos determinantes do viés; até mesmo modelos com mecanismos de processamento posicional fundamentalmente diferentes podem ser direcionados para padrões de viés específicos através dos dados de treinamento.

Os autores concluem que, embora tendências pré-existentes de arquitetura ou pré-treinamento persistam em alguns modelos, a direção do viés no nível da recuperação é amplamente maleável e pode ser redirecionada através de distribuições controladas de dados de treinamento.

Is Position Bias in Dense Retrievers Built In-or Learned from Data?