Autores originales: Daegon Yu, SeungYoon Han, Woomyoung Park

Publicado 2026-05-27✓ Author reviewed ⓘ

📖 4 min de lectura☕ Lectura para el café

Autores originales: Daegon Yu, SeungYoon Han, Woomyoung Park

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

La Gran Pregunta: ¿Es el Sesgo Innato o Aprendido?

Imagina que estás contratando a un bibliotecario para encontrar hechos específicos dentro de una biblioteca masiva de libros. Notas un problema extraño: este bibliotecario es terrible para encontrar información si está ubicada en el medio o al final de un libro. Casi siempre encuentra la respuesta si está en la primera página, pero si la respuesta está en la página 500, a menudo la pierde por completo.

Esto se llama Sesgo de Posición. Durante mucho tiempo, los investigadores pensaron que este sesgo estaba "cableado" en el cerebro del bibliotecario (la arquitectura del modelo informático), como una limitación física de sus ojos o sus oídos. Pensaron: "Oh, el bibliotecario simplemente no puede ver más allá de la primera página".

Este documento plantea una pregunta diferente: ¿Y si el bibliotecario no nace con este mal hábito? ¿Y si simplemente lo aprendió de los libros en los que fue entrenado?

El Experimento: Entrenando al Bibliotecario

Para probar esto, los investigadores crearon un campamento de entrenamiento especial para ocho tipos diferentes de bibliotecarios (modelos informáticos). Estos bibliotecarios tenían diferentes "estructuras cerebrales" (algunos eran codificadores, otros decodificadores, algunos usaban trucos matemáticos diferentes), por lo que deberían haber tenido tendencias naturales diferentes.

Los investigadores establecieron cuatro escenarios de entrenamiento distintos utilizando datos sintéticos:

El Campamento "Solo Inicio": Solo mostraron al bibliotecario preguntas donde la respuesta estaba al principio mismo del texto.
El Campamento "Solo Medio": Solo mostraron preguntas donde la respuesta estaba en el medio.
El Campamento "Solo Final": Solo mostraron preguntas donde la respuesta estaba al final mismo.
El Campamento "Equilibrado": Mostraron una mezcla de los tres, para que el bibliotecario aprendiera que las respuestas podían estar en cualquier lugar.

Los Resultados: El Bibliotecario Copia al Maestro

Los resultados fueron sorprendentes y muy claros. Los bibliotecarios no se aferraron a sus "naturales" estructuras cerebrales; adoptaron completamente los hábitos de su campamento de entrenamiento.

Los Bibliotecarios "Solo Inicio" se obsesionaron con el principio del texto. Si la respuesta estaba allí, eran geniales. Si estaba al final, fracasaron miserablemente.
Los Bibliotecarios "Solo Final" cambiaron el guion. Ignoraron el principio y se convirtieron en expertos en encontrar respuestas al final mismo del documento.
Los Bibliotecarios "Solo Medio" aprendieron a buscar específicamente en el medio.

La Analogía: Imagina que le enseñas a un perro a sentarse solo cuando estás de pie en el lado izquierdo de la habitación. Si luego te mueves al lado derecho y dices "Siéntate", el perro no lo hará. El perro no es "malo" para sentarse; simplemente aprendió que "Siéntate" solo ocurre a la izquierda. De manera similar, estos modelos de IA aprendieron que la "Información Relevante" solo existe donde los datos de entrenamiento les dijeron que buscaran.

Incluso los bibliotecarios que comenzaron con una ligera preferencia natural (como una ligera tendencia a mirar al inicio) cambiaron completamente su comportamiento para coincidir con los datos de entrenamiento.

La Solución: La Dieta "Equilibrada"

El documento también probó qué sucede si le das al bibliotecario una dieta equilibrada (el "Campamento Equilibrado").

El Resultado: Cuando se entrenaron con una mezcla de ejemplos de inicio, medio y final, los bibliotecarios se volvieron mucho más confiables. Dejaron de ignorar partes del libro.
La Compensación: ¿Esto los hizo más lentos o peores en general? No. Permanecieron tan buenos encontrando respuestas como los sesgados, pero no tenían los "puntos ciegos". Podían encontrar la respuesta ya fuera en la página 1 o en la página 500.

Por Qué Esto Importa

El documento concluye que el Sesgo de Posición no es un defecto permanente en el diseño de la máquina. Es un hábito aprendido de los datos en los que fue alimentado.

El Problema: Muchos conjuntos de datos del mundo real (como artículos de noticias o registros de búsqueda) colocan naturalmente la información más importante al principio. Si entrenas una IA con esto, aprende a ignorar el resto del documento.
La Solución: No necesitas reconstruir el cerebro de la IA ni cambiar sus complejas matemáticas. Solo necesitas curar mejor tus datos de entrenamiento. Al asegurar que la IA vea ejemplos donde la respuesta está en el medio y al final, puedes "desaprender" el sesgo y crear un recuperador más robusto y justo.

En resumen: El sesgo no está incorporado; se aprende. Y así como un estudiante puede desaprender malos hábitos de estudio si se le dan los problemas de práctica adecuados, estos modelos de IA pueden desaprender el sesgo de posición si se les dan datos de entrenamiento equilibrados.

Resumen Técnico: Sesgo Posicional en Recuperadores Densos

Enunciado del Problema

Los recuperadores densos, que son centrales para la respuesta a preguntas en dominio abierto y la generación aumentada por recuperación (RAG), exhiben un sesgo posicional sistemático. Favorecen desproporcionadamente los documentos donde la información relevante para la consulta aparece cerca del principio, lo que conduce a una degradación significativa del rendimiento cuando la evidencia relevante se encuentra en el medio o al final de un documento.

Aunque investigaciones anteriores han observado empíricamente este sesgo en diversas etapas de entrenamiento y codificaciones posicionales, la causa subyacente permanece poco clara. Las explicaciones previas se han centrado en factores arquitectónicos, como la atención causal en modelos autoregresivos o patrones específicos de atención de tokens de agrupación. Sin embargo, los recuperadores densos basados en codificadores carecen de enmascaramiento causal y aún así exhiben un fuerte "sesgo de primacía", lo que sugiere que la arquitectura por sí sola no puede explicar completamente el fenómeno. Existe una brecha crítica en la comprensión de la medida en que la distribución posicional de los datos de ajuste fino moldea este sesgo, ya que el trabajo anterior se ha basado en gran medida en la observación en lugar de la manipulación directa de las distribuciones de los datos de entrenamiento.

Metodología

Para aislar el efecto de los datos de entrenamiento sobre el sesgo posicional a nivel de recuperación, los autores construyeron un marco experimental controlado que involucraba conjuntos de datos sintéticos dirigidos a la posición y diversas arquitecturas de modelos.

1. Construcción de Datos Controlados por Posición

Los autores desarrollaron una tubería de tres etapas para generar datos de entrenamiento donde la ubicación de la evidencia relevante para la consulta está estrictamente controlada:

Preparación del Corpus: Utilizando Wikipedia en inglés, los documentos se estratificaron por longitud en cinco intervalos (256–8192 caracteres) y se dividieron en tres segmentos iguales: principio, medio y final.
Generación de Consultas Dirigidas a la Posición: Utilizando GPT-4o-mini con prompts condicionados por persona, se generaron consultas que solo podían responderse mediante un segmento objetivo específico (principio, medio o final).
Verificación con Múltiples Reordenadores: Para asegurar que las consultas generadas fueran verdaderamente exclusivas del segmento objetivo, un panel de tres reordenadores de codificador cruzado (BGE, GTE, Jina) verificó los candidatos. Un candidato se conservó solo si todos los reordenadores puntuaban el segmento objetivo al menos $\delta=0.3$ puntos más alto que el segmento no objetivo más fuerte.
Muestreo Equilibrado: El grupo retenido resultante estaba naturalmente sesgado hacia el principio. Para crear conjuntos de entrenamiento controlados, los autores realizaron un submuestreo dentro de las celdas de longitud-posición para asegurar una representación igual de los intervalos de longitud y las posiciones objetivo para configuraciones experimentales específicas.

2. Diseño Experimental

El estudio ajustó finamente ocho modelos preentrenados arquitectónicamente diversos (incluyendo BERT, Longformer, ModernBERT, GPT-2, BLOOM, TinyLlama y Qwen3) bajo cuatro configuraciones de entrenamiento distintas:

Configuraciones Concentradas: Datos de entrenamiento donde el 100% de las consultas apuntaban al principio (MB), medio (MM) o final (ME) de los documentos.
Configuración Uniforme (MU): Datos de entrenamiento donde las consultas estaban distribuidas uniformemente entre las tres posiciones.

Los modelos se evaluaron en:

Benchmarks Conscientes de la Posición: SQuAD-PosQ, FineWeb-PosQ y PosIR, que permiten la medición del rendimiento basada en la ubicación específica de la evidencia.
Benchmarks de Recuperación Estándar: Cuatro subconjuntos de BEIR (SciFact, HotpotQA, FEVER, Climate-FEVER) para evaluar el rendimiento en configuraciones convencionales donde la ubicación de la evidencia no está controlada.
Análisis de Representación: Análisis de similitud cosina entre pares consulta-documento y embebimientos de segmentos de documentos para determinar si existe sesgo a nivel de embebimiento.

Resultados Clave

1. La Distribución de Entrenamiento Dicta la Dirección del Sesgo

El hallazgo principal es que el sesgo posicional a nivel de recuperación sigue la distribución de los datos de entrenamiento, independientemente de la arquitectura del modelo.

Los modelos entrenados con datos sesgados hacia el principio (MB) favorecieron consistentemente la evidencia temprana.
Los modelos entrenados con datos sesgados hacia el medio (MM) favorecieron la evidencia media.
Los modelos entrenados con datos sesgados hacia el final (ME) favorecieron la evidencia posterior.
Este cambio direccional ocurrió en los ocho modelos, incluidos aquellos con diferentes codificaciones posicionales (APE, RoPE, ALiBi, NoPE) y estrategias de agrupación (CLS, Media, Último-token).

2. Mitigación mediante Entrenamiento Equilibrado

El entrenamiento equilibrado por posición (MU) redujo significativamente la sensibilidad posicional sin sacrificar el rendimiento de recuperación.

En los benchmarks conscientes de la posición, el entrenamiento equilibrado redujo el Índice de Sensibilidad Posicional (PSI) en un 57–87% en comparación con la configuración sesgada más grave para todos los modelos.
Por ejemplo, en SQuAD-PosQ, el PSI para GPT-2-medium bajó de 0.592 (entrenado en principio) a 0.080 (entrenado uniformemente).
Crucialmente, los modelos entrenados uniformemente mantuvieron un rendimiento medio de recuperación competitivo (nDCG@10), a menudo logrando las puntuaciones más altas o cercanas a las más altas en los benchmarks. Esto indica que reducir el sesgo no requiere un compromiso en la calidad general de la recuperación.

3. Cambios a Nivel de Representación

El análisis de los embebimientos de documentos reveló que el ajuste fino remodela las preferencias posicionales aprendidas:

Los modelos base preentrenados mostraron solo tendencias iniciales leves y específicas del modelo (por ejemplo, una ligera primacía en codificadores, recencia en algunos decodificadores).
Después del ajuste fino, los perfiles de similitud de los segmentos de documentos se desplazaron para alinearse con la distribución de entrenamiento. Por ejemplo, los modelos entrenados en principio mostraron mayor similitud con el primer segmento, mientras que los modelos entrenados en final mostraron mayor similitud con los segmentos finales.
El entrenamiento uniforme comprimió estos perfiles, resultando en curvas de similitud más planas a través de las posiciones.

4. Especificidad del Benchmark

El estudio observó que las puntuaciones de los benchmarks estándar (por ejemplo, BEIR) pueden ser engañosas en cuanto a la robustez. Los benchmarks con evidencia fuertemente concentrada al principio (como FEVER) favorecieron a los modelos entrenados en principio, enmascarando su falta de robustez ante la evidencia que aparece en otros lugares. Por el contrario, los modelos entrenados con datos equilibrados se comportaron de manera más consistente a través de diferentes ubicaciones de evidencia.

Significado y Afirmaciones

El artículo afirma identificar la distribución de la posición de entrenamiento como un factor controlable mayor en el sesgo posicional a nivel de recuperación, desafiando la noción de que este sesgo es una propiedad inherente e inmutable de las arquitecturas de recuperadores densos.

Evidencia Causal: Al manipular directamente la distribución posicional de los datos de entrenamiento, los autores proporcionan evidencia directa de que la curaduría de datos impulsa la dirección del sesgo, en lugar de solo la arquitectura o el preentrenamiento.
Mitigación Práctica: El estudio propone la curaduría de datos equilibrada como una estrategia práctica y efectiva para mitigar el sesgo posicional. Demuestra que simplemente asegurar que la evidencia relevante para la consulta esté distribuida uniformemente a través de las posiciones del documento durante el ajuste fino puede producir modelos que son robustos a la ubicación de la evidencia mientras mantienen un alto rendimiento de recuperación.
Independencia Arquitectónica: Los hallazgos sugieren que los factores arquitectónicos (como las codificaciones posicionales o las estrategias de agrupación) no son los únicos determinantes del sesgo; incluso modelos con mecanismos de procesamiento posicional fundamentalmente diferentes pueden ser dirigidos hacia patrones de sesgo específicos a través de los datos de entrenamiento.

Los autores concluyen que, aunque las tendencias arquitectónicas o de preentrenamiento preexistentes persisten en algunos modelos, la dirección del sesgo a nivel de recuperación es en gran medida maleable y puede redirigirse mediante distribuciones controladas de datos de entrenamiento.

Is Position Bias in Dense Retrievers Built In-or Learned from Data?