원저자: Daegon Yu, SeungYoon Han, Woomyoung Park

게시일 2026-05-27✓ Author reviewed ⓘ

📖 3 분 읽기☕ 가벼운 읽기

원저자: Daegon Yu, SeungYoon Han, Woomyoung Park

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

이 논문은 간단한 언어와 창의적인 비유를 사용하여 설명합니다.

핵심 질문: 편향은 선천적인가, 학습된 것인가?

거대한 책 도서관 안에서 특정 사실을 찾아야 하는 사서 한 명을 고용한다고 상상해 보세요. 이상한 문제를 발견합니다. 이 사서는 책의 중간이나 맨 끝에 정보가 있을 때 정보를 찾는 데 매우 서툴러요. 첫 페이지에 답이 있으면 거의 항상 찾아내지만, 500 페이지에 답이 있으면 종종 완전히 놓쳐버립니다.

이를 **위치 편향 (Position Bias)**이라고 합니다. 오랫동안 연구자들은 이 편향이 사서의 뇌 (컴퓨터 모델의 아키텍처) 에 '하드코딩'되어, 마치 눈이나 귀의 물리적 한계처럼 고정된 것이라고 생각했습니다. 그들은 "아, 사서는 첫 페이지 너머는 보지 못하는구나"라고 생각했죠.

이 논문은 다른 질문을 던집니다: 만약 이 사서가 태어날 때부터 나쁜 습관을 가지고 있는 것이 아니라, 훈련에 사용된 책들로부터 그 습관을 배운 것이라면 어떨까요?

실험: 사서 훈련시키기

이를 검증하기 위해 연구자들은 여덟 가지 다른 유형의 사서 (컴퓨터 모델) 를 위한 특수 훈련 캠프를 만들었습니다. 이 사서들은 서로 다른 '뇌 구조' (일부는 인코더, 일부는 디코더, 일부는 다른 수학적 기법을 사용함) 를 가지고 있었으므로, 본래 다른 성향을 보였어야 합니다.

연구자들은 합성 데이터를 사용하여 네 가지 명확한 훈련 시나리오를 설정했습니다.

"시작만" 캠프: 사서에게 답이 텍스트의 맨 시작에 있는 질문들만 보여주었습니다.
"중간만" 캠프: 답이 중간에 있는 질문들만 보여주었습니다.
"끝만" 캠프: 답이 맨 끝에 있는 질문들만 보여주었습니다.
"균형 잡힌" 캠프: 세 가지 상황을 모두 섞어서 보여주어, 사서가 답이 어디든 있을 수 있음을 배우도록 했습니다.

결과: 사서는 선생님을 따라합니다

결과는 놀랍고 매우 명확했습니다. 사서들은 자신의 '본래적인' 뇌 구조에 집착하지 않고, 훈련 캠프의 습관을 완전히 받아들였습니다.

"시작만" 사서들은 텍스트의 시작 부분에 집착하게 되었습니다. 답이 거기에 있으면 훌륭했지만, 끝에 있으면 완전히 실패했습니다.
"끝만" 사서들은 반대로 행동했습니다. 시작 부분을 무시하고 문서의 맨 끝에 있는 답을 찾는 전문가가 되었습니다.
"중간만" 사서들은 구체적으로 중간을 찾아보도록 학습했습니다.

비유: 방의 왼쪽에 서 있을 때만 개에게 '앉아'라고 명령한다고 상상해 보세요. 그다음에 오른쪽으로 이동하며 "앉아"라고 말하면 개는 하지 않을 것입니다. 개가 '앉는' 것을 못 하는 것이 아니라, "앉아"는 왼쪽에서만 일어난다고 배웠기 때문입니다. 마찬가지로 이 AI 모델들은 훈련 데이터가 지시한 곳에만 '관련 정보'가 존재한다고 배웠습니다.

약간의 본능적 선호도 (예: 시작 부분을 보는 경향) 를 가지고 시작했던 사서들조차 훈련 데이터에 맞춰 행동을 완전히 바꾸었습니다.

해결책: "균형 잡힌" 식단

이 논문은 사서에게 균형 잡힌 식단 ("균형 잡힌 캠프") 을 제공하면 어떤 일이 일어나는지도 테스트했습니다.

결과: 시작, 중간, 끝 예시를 모두 섞어 훈련했을 때 사서들은 훨씬 더 신뢰할 수 있게 되었습니다. 책의 일부를 무시하는 행동을 멈췄습니다.
교환 조건: 이것이 그들을 더 느리게 하거나 전체적으로 더 나쁘게 만들었을까요? 아닙니다. 편향된 사서들과 마찬가지로 답을 찾는 능력은 그대로 유지되면서 '맹점'만 사라졌습니다. 1 페이지든 500 페이지든 답이 어디에 있든 찾을 수 있게 되었습니다.

왜 이것이 중요한가

이 논문은 위치 편향이 기계 설계의 영구적인 결함이 아님을 결론 내립니다. 이는 공급된 데이터로부터 학습된 습관일 뿐입니다.

문제: 많은 실제 세계 데이터셋 (뉴스 기사나 검색 로그 등) 은 자연스럽게 가장 중요한 정보를 시작 부분에 배치합니다. AI 를 이렇게 훈련시키면, AI 는 문서의 나머지 부분을 무시하도록 학습합니다.
해결책: AI 의 뇌를 재건축하거나 복잡한 수학을 변경할 필요가 없습니다. 훈련 데이터를 더 잘 선별하기만 하면 됩니다. AI 가 답이 중간과 끝에 있는 예시들을 보도록 보장함으로써 편향을 '학습 해제'하고 더 견고하고 공정한 검색기를 만들 수 있습니다.

요약하자면: 편향은 선천적인 것이 아니라 학습된 것입니다. 그리고 학생이 올바른 연습 문제를 제공받으면 나쁜 공부 습관을 학습 해제할 수 있듯이, 이 AI 모델들도 균형 잡힌 훈련 데이터를 제공받으면 위치 편향을 학습 해제할 수 있습니다.

기술 요약: 밀집 검색기에서의 위치 편향

문제 제기

개방형 질문 응답 및 검색 증강 생성 (RAG) 의 핵심인 밀집 검색기는 체계적인 위치 편향을 보입니다. 이들은 쿼리 관련 정보가 문서 시작 부분에 나타나는 문서를 불균형적으로 선호하여, 관련 증거가 문서 중간이나 끝에 위치할 경우 성능이 크게 저하됩니다.

이전 연구들은 다양한 학습 단계와 위치 인코딩을 통해 이 편향을 경험적으로 관찰해 왔으나, 그 근본 원인은 여전히 불분명합니다. 이전의 설명들은 인과적 어텐션이나 특정 풀링 토큰 어텐션 패턴과 같은 아키텍처적 요인에 초점을 맞추었습니다. 그러나 인코더 기반 밀집 검색기는 인과적 마스킹이 없음에도 강력한 '선두 편향 (primacy bias)'을 보이며, 이는 아키텍처만으로는 현상을 완전히 설명할 수 없음을 시사합니다. 파인튜닝 데이터의 위치 분포가 이 편향을 형성하는 정도에 대한 이해에는 중요한 공백이 존재하며, 이전 연구들은 대부분 훈련 데이터 분포의 직접적인 조작보다는 관찰에 의존해 왔습니다.

방법론

훈련 데이터가 검색 수준의 위치 편향에 미치는 영향을 분리하기 위해, 저자들은 합성적이고 위치를 표적으로 하는 데이터셋과 다양한 모델 아키텍처를 포함한 통제된 실험 프레임워크를 구축했습니다.

1. 위치 제어 데이터 구축

저자들은 쿼리 관련 증거의 위치가 엄격하게 제어되는 훈련 데이터를 생성하기 위한 3 단계 파이프라인을 개발했습니다:

코퍼스 준비: 영어 위키백과를 사용하여, 문서를 길이 (256~8192 자) 에 따라 5 개의 빈 (bin) 으로 계층화하고 시작, 중간, 끝의 세 가지 균등한 세그먼트로 나누었습니다.
위치 표적 쿼리 생성: GPT-4o-mini 를 persona-conditioned 프롬프팅과 함께 사용하여, 오직 특정 목표 세그먼트 (시작, 중간, 또는 끝) 에 의해서만 답변 가능한 쿼리를 생성했습니다.
다중 리랭커 검증: 생성된 쿼리가 목표 세그먼트에 독점적으로 해당하는지 확인하기 위해 BGE, GTE, Jina 의 세 가지 크로스-인코더 리랭커 패널이 후보를 검증했습니다. 모든 리랭커가 목표 세그먼트를 가장 강력한 비목표 세그먼트보다 최소 $\delta=0.3$ 만큼 높게 점수화한 경우에만 후보가 유지되었습니다.
균형 샘플링: 결과적으로 유지된 풀은 자연스럽게 시작 부분에 치우쳐 있었습니다. 통제된 훈련 세트를 만들기 위해 저자들은 길이 - 위치 셀 내에서 다운샘플링하여 특정 실험 구성을 위해 길이 빈과 목표 위치의 균등한 표현을 보장했습니다.

2. 실험 설계

본 연구는 BERT, Longformer, ModernBERT, GPT-2, BLOOM, TinyLlama, Qwen3 을 포함한 8 개의 아키텍처적으로 다양한 사전 학습 모델을 4 가지 다른 훈련 구성 하에서 파인튜닝했습니다:

집중 구성: 100% 의 쿼리가 문서의 시작 (MB), 중간 (MM), 또는 끝 (ME) 을 표적으로 하는 훈련 데이터.
균일 구성 (MU): 쿼리가 세 위치 전체에 고르게 분포된 훈련 데이터.

모델들은 다음과 기준으로 평가되었습니다:

위치 인식 벤치마크: 증거의 특정 위치에 기반한 성능 측정이 가능한 SQuAD-PosQ, FineWeb-PosQ, PosIR.
표준 검색 벤치마크: 증거 위치가 통제되지 않은 기존 설정 하에서 성능을 평가하기 위한 4 개의 BEIR 하위 집합 (SciFact, HotpotQA, FEVER, Climate-FEVER).
표현 분석: 편향이 임베딩 수준에서 존재하는지 확인하기 위한 쿼리 - 문서 쌍 및 문서 세그먼트 임베딩 간의 코사인 유사도 분석.

주요 결과

1. 훈련 분포가 편향 방향을 결정함

주요 발견은 검색 수준의 위치 편향이 모델 아키텍처와 관계없이 훈련 데이터 분포를 따른다는 것입니다.

시작 치우친 데이터 (MB) 로 훈련된 모델은 일관되게 초기 증거를 선호했습니다.
중간 치우친 데이터 (MM) 로 훈련된 모델은 중간 증거를 선호했습니다.
끝 치우친 데이터 (ME) 로 훈련된 모델은 후기 증거를 선호했습니다.
이 방향 전환은 서로 다른 위치 인코딩 (APE, RoPE, ALiBi, NoPE) 과 풀링 전략 (CLS, Mean, Last-token) 을 가진 8 개 모델 모두에서 발생했습니다.

2. 균형 훈련을 통한 완화

**위치 균형 훈련 (MU)**은 검색 성능을 희생하지 않으면서 위치 민감도를 현저히 감소시켰습니다.

위치 인식 벤치마크에서 균형 훈련은 모든 모델에 대해 가장 치우친 구성 대비 위치 민감도 지수 (PSI) 를 57~87% 감소시켰습니다.
예를 들어, SQuAD-PosQ 에서 GPT-2-medium 의 PSI 는 시작 훈련 시 0.592 에서 균일 훈련 시 0.080 으로 감소했습니다.
결정적으로, 균일하게 훈련된 모델들은 **경쟁력 있는 평균 검색 성능 (nDCG@10)**을 유지했으며, 종종 벤치마크 전반에서 최고 또는 최고에 근접한 점수를 달성했습니다. 이는 편향을 줄이는 것이 전체 검색 품질의 트레이드오프를 필요로 하지 않음을 시사합니다.

3. 표현 수준의 변화

문서 임베딩 분석은 파인튜닝이 학습된 위치 선호도를 재형성함을 보여주었습니다:

사전 학습된 베이스 모델은 인코더에서는 약간의 선두 경향, 일부 디코더에서는 최근 경향과 같은 모델별 초기 경향만 보였습니다.
파인튜닝 후, 문서 세그먼트의 유사도 프로파일이 훈련 분포에 맞춰 변화했습니다. 예를 들어, 시작 훈련 모델은 첫 번째 세그먼트와 더 높은 유사도를 보인 반면, 끝 훈련 모델은 마지막 세그먼트와 더 높은 유사도를 보였습니다.
균일 훈련은 이러한 프로파일을 압축하여 위치 전반에 걸쳐 더 평탄한 유사도 곡선을 생성했습니다.

4. 벤치마크 특이성

본 연구는 표준 벤치마크 점수 (예: BEIR) 가 견고성에 대해 오해의 소지가 있을 수 있음을 관찰했습니다. 증거가 시작 부분에 집중된 벤치마크 (FEVER 등) 는 시작 훈련 모델을 선호하여 다른 곳에 나타나는 증거에 대한 그들의 견고성 부재를 가렸습니다. 반면, 균형 데이터로 훈련된 모델은 다른 증거 위치 전반에서 더 일관되게 수행되었습니다.

중요성 및 주장

본 논문은 훈련 위치 분포를 검색 수준 위치 편향의 주요 제어 가능한 요인으로 규명하여, 이 편향이 밀집 검색기 아키텍처의 고유하고 변경 불가능한 속성이라는 관념에 도전합니다.

인과적 증거: 훈련 데이터의 위치 분포를 직접 조작함으로써 저자들은 편향의 방향을 아키텍처나 사전 학습이 아닌 데이터 선별이 주도함을 직접적인 증거로 제시합니다.
실용적 완화: 본 연구는 균형 잡힌 데이터 선별을 위치 편향을 완화하기 위한 실용적이고 효과적인 전략으로 제안합니다. 파인튜닝 중 쿼리 관련 증거가 문서 위치 전반에 고르게 분포되도록 함으로써, 증거 위치에 강건하면서도 높은 검색 성능을 유지하는 모델을 생성할 수 있음을 입증합니다.
아키텍처 독립성: 연구 결과는 아키텍처적 요인 (위치 인코딩이나 풀링 전략 등) 이 편향의 유일한 결정 요인이 아님을 시사합니다. 근본적으로 다른 위치 처리 메커니즘을 가진 모델조차 훈련 데이터를 통해 특정 편향 패턴으로 유도될 수 있습니다.

저자들은 기존 아키텍처나 사전 학습 경향이 일부 모델에서 지속되지만, 검색 수준의 편향 방향은 대체로 유연하며 통제된 훈련 데이터 분포를 통해 재지향될 수 있다고 결론지었습니다.

Is Position Bias in Dense Retrievers Built In-or Learned from Data?