Does Reasoning Make Search More Fair? Comparing Fairness in Reasoning and Non-Reasoning Rerankers

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"생각하는 (Reasoning) 검색 엔진이 공정한 검색 결과를 만들어줄까?"**라는 질문을 던집니다.

최근 인공지능 (LLM) 이 단순히 답을 찾는 것을 넘어, "왜 이 답이 맞는지" 단계별로 **생각하는 과정 (Reasoning)**을 거치며 성능이 크게 좋아졌습니다. 연구자들은 "이렇게 깊이 생각하면, 성별이나 국적 같은 편견을 덜 가지고 더 공정한 결과를 줄 수도 있지 않을까?"라고 기대했습니다.

하지만 결론은 다소 놀랍습니다. **"생각한다고 해서 더 공정해지지는 않는다"**는 것입니다.

이 복잡한 연구를 일상적인 비유로 쉽게 설명해 드릴게요.

🧐 비유: "훌륭한 요리사 vs 공정한 메뉴판"

이 연구를 이해하기 위해 요리사와 식당에 비유해 보겠습니다.

검색 엔진 (요리사): 사용자의 질문 (주문) 을 듣고 가장 맛있는 요리 (관련성 높은 문서) 를 찾아냅니다.
재순위화 (Reranking): 처음 나온 메뉴 목록을 다시 한번 검토해서, 가장 좋은 요리를 맨 앞에 배치하는 과정입니다.
생각하는 요리사 (Reasoning Reranker): 단순히 "이게 맛있어"라고만 하는 게 아니라, "이 요리는 재료도 좋고, 조리법도 훌륭해서 최상위야"라고 이유를 설명하며 메뉴를 정리합니다.
공정성 (Fairness): 메뉴판에 다양한 국적, 성별, 배경을 가진 요리사들의 요리가 고르게 노출되는지 여부입니다. (예: 남성 요리사만 90% 노출되면 불공정함)

🔍 연구가 찾아낸 3 가지 핵심 사실

1. "생각"은 맛 (관련성) 을 높이지만, 공정성에는 무관심합니다.

연구 결과, **생각하는 요리사 (Reasoning 모델)**는 **생각하지 않는 요리사 (기존 모델)**보다 훨씬 더 맛있는 요리를 찾아냈습니다 (검색 결과의 정확도가 높아짐).
하지만 공정성을 측정했을 때는 두 요리사의 실력이 거의 똑같았습니다.

비유: 생각할 줄 아는 요리사가 "이 요리는 정말 최고야!"라고 열변을 토하며 메뉴를 정리했지만, 정작 메뉴판에는 여전히 특정 국적의 요리만 계속 올라와 있었습니다. 생각하는 과정 자체가 편견을 고쳐주지 않는 것입니다.

2. "재료"가 없으면 아무리 요리 실력이 좋아도 요리를 만들 수 없습니다.

가장 중요한 발견은 공정성의 원천이 검색 엔진이 아니라 '데이터'에 있다는 점입니다.

비유: 만약 식당의 냉장고 (데이터베이스) 에 '한국 요리'나 '여성 요리사'의 레시피가 아예 없다면, 아무리 훌륭한 요리사 (AI) 가 아무리 열심히 생각해도 그 요리를 메뉴판에 올릴 수 없습니다.
연구에서 지리적 속성 (국적/지역) 같은 경우, 문서 자체에 정보가 잘 드러나지 않아 AI 가 이를 인식하기 어려웠습니다. 그래서 어떤 모델을 쓰든 특정 지역의 요리는 계속 소외되었습니다.

3. 질문을 어떻게 하느냐가 더 중요합니다.

검색을 할 때 키워드만 나열하는 것보다, **자연스러운 문장 (예: "바다 여행에 필요한 요트 종류 알려줘")**으로 질문했을 때, 모든 모델이 더 좋은 결과를 냈습니다.

비유: 요리사에게 "소금, 설탕, 고기"라고 나열하는 것보다 "오늘 저녁에 가족이 먹을 수 있는 맛있는 고기 요리를 추천해 줘"라고 말하면, 요리사가 상황을 더 잘 이해하고 좋은 요리를 찾아낸다는 뜻입니다.

💡 결론: 무엇을 배울 수 있을까요?

이 논문의 결론은 다음과 같이 요약할 수 있습니다.

"AI 가 더 똑똑해지고 깊게 생각한다고 해서, 자동으로 더 공정한 세상이 되는 것은 아닙니다."

현재 상태: 최신 AI 모델은 검색 결과의 '정확도'는 대폭 향상시켰지만, '공정성'은 기존 모델과 비슷하게 유지했습니다. 오히려 초기 검색 결과에 어떤 편향이 있었으면, 그 편향을 그대로 가져가는 경향이 있습니다.
해결책: AI 모델 자체를 더 똑똑하게 만드는 것만으로는 부족합니다. 데이터베이스 (재료) 를 더 다양하게 채우고, 검색 시스템이 의도적으로 다양한 목소리를 찾아내도록 설계해야 합니다.

한 줄 요약:

"생각하는 AI 는 훌륭한 '검색 도우미'가 될 수 있지만, 공정한 세상을 만드는 '정의의 심판관'이 되려면 우리가 먼저 데이터와 시스템을 바꿔줘야 합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

검색 시스템은 정보 접근성을 결정하며, 특히 의사결정 지원 시스템에서는 관련성 (Relevance) 뿐만 아니라 다양한 관점과 소스의 공정한 노출 (Fairness) 이 필수적입니다. 최근 추론 (Reasoning) 능력을 갖춘 대형 언어 모델 (LLM) 기반의 리랭커 (Reranker) (예: Rank1, Qwen3-Reranker 등) 가 관련성 지표에서 뛰어난 성능을 보이고 있습니다.

그러나 이러한 추론 리랭커가 검색 결과의 공정성 (Fairness) 에 어떤 영향을 미치는지는 아직 명확히 규명되지 않았습니다.

가설 1: 추론 과정이 문맥을 더 깊이 고려하게 하여 공정성을 향상시킬 수 있다.
가설 2: 사전 학습 데이터의 편향이 추론 과정 (Justification) 에 반영되어 오히려 불공정을 증폭시킬 수 있다.

이 연구는 추론 리랭커와 비추론 리랭커의 공정성 성능을 체계적으로 비교하여, 추론 기능이 검색의 공정성을 개선하는지, 아니면 중립적인지, 혹은 해를 끼치는지를 규명하는 것을 목표로 합니다.

2. 방법론 (Methodology)

2.1 데이터셋 및 설정

데이터셋: TREC 2022 Fair Ranking Track 데이터셋 사용 (영어 위키백과 문서 기반).
초기 검색 (Initial Retrieval): BM25, Qwen3-Embedding-8B, 그리고 이 둘의 융합 (Fusion) 방식 등 4 가지 초기 검색 설정을 구성.
쿼리 설정: 원본 키워드 쿼리와 GPT-4o-mini 를 이용한 자연어 재작성 (Rewritten) 쿼리 비교.
오라클 (Oracle) 설정: 관련성 (nDCG) 이 거의 완벽하게 최적화된 (0.9 이상) 이상적인 랭킹을 생성하여, 리랭커가 '관련성'을 통제했을 때 '공정성'만 어떻게 처리하는지 분석.

2.2 평가 모델 (6 개)

모델 크기를 통제하기 위해 파라미터 수를 유사하게 설정된 6 가지 리랭커를 비교:

추론 리랭커 (Reasoning): Rank1-7B, Qwen3-Reranker-8B, ReasonRank-7B
비추론 리랭커 (Non-Reasoning): MonoT5-0.3B, RankZephyr-7B, RankLLaMA-7B
구분: Pointwise(문서별 점수 예측) 와 Listwise(문서 목록 순서 예측) 방식 모두 포함.

2.3 평가 지표

관련성 (Relevance): nDCG@10 (Normalized Discounted Cumulative Gain)
공정성 (Fairness): AWRF (Attention-Weighted Rank Fairness)
- 민감한 속성 (성별, 직업, 지리, 언어 등 8 가지) 에 따른 노출 분포가 실제 인구 통계 및 관련 문서 내 분포와 얼마나 일치하는지 측정 (Jensen-Shannon divergence 기반).
- 최종 점수: $M1 = AWRF \times nDCG$
통계적 검정: TOST (Two One-Sided Tests) 를 사용하여 모델 간 공정성 차이가 통계적으로 유의미한지 또는 동등한지 (equivalence) 검증.

3. 주요 기여 (Key Contributions)

최초의 체계적 비교: 정보 검색 분야에서 추론 리랭커와 비추론 리랭커의 공정성을 비교한 첫 번째 연구.
추론의 중립성 발견: 현재 구현된 추론 기능은 비추론 방식에 비해 공정성을 개선하지도, 해를 끼치지도 않음 (중립적).
쿼리 형식의 영향: 쿼리 재작성 (자연어화) 이 관련성과 공정성 모두에 큰 영향을 미치며, 이는 모델 아키텍처보다 더 중요한 변수임을 규명.
속성별 편차 발견: 모든 모델에서 '지리적 속성 (Subject Geography)'이 다른 속성들에 비해 일관되게 낮은 공정성 점수를 보임.

4. 주요 결과 (Results)

4.1 관련성 vs 공정성 (RQ1 & RQ2)

관련성 향상: 모든 리랭커 (추론/비추론 모두) 는 초기 검색 (BM25 등) 대비 nDCG@10 을 크게 향상시킴. 특히 자연어 재작성 쿼리 사용 시 성능이 극대화됨.
공정성 불변: 리랭킹을 수행하더라도 **AWRF 점수는 초기 검색 결과와 통계적으로 동등 (Equivalent)**하게 유지됨.
- AWRF 값은 모든 모델에서 약 0.33~0.35 구간으로 안정적임.
- 관련성 (nDCG) 이 0.247 에서 1.000 으로 크게 변함에도 불구하고 공정성 지표는 변하지 않음.
추론의 영향: 추론 리랭커가 비추론 리랭커보다 공정성 면에서 우월하거나 열등하다는 증거는 발견되지 않음. 오라클 실험 (관련성 통제) 에서도 추론 모델이 약간의 편차를 보였으나, 이는 통계적으로 명확한 경향성이 아니었음.

4.2 인구통계학적 속성별 차이 (RQ3)

지리적 편향: 'Subject Geography (주제 지리)' 속성은 모든 모델과 설정에서 가장 낮은 공정성 점수 (약 0.72~0.83) 를 기록함.
원인: 지리적 정보는 문서 텍스트에 명시적으로 포함되지 않는 경우가 많아, 리랭커가 이를 감지하고 공정하게 배분하기 어렵기 때문.
다른 속성: 언어, 성별, 나이 등은 상대적으로 높은 공정성 점수를 보임.

5. 결론 및 의의 (Conclusion & Significance)

핵심 결론

현재의 추론 리랭커는 공정성을 자동으로 해결하지 못함: 모델이 관련성을 판단하기 위해 추론을 하더라도, 이는 공정성 속성 (지리, 성별 등) 을 고려하도록 설계되지 않았기 때문에 입력된 초기 랭킹의 공정성 특성을 그대로 유지 (Preserve) 함.
공정성 개선의 한계: 리랭킹 단계만으로는 초기 검색 결과 (Candidate Pool) 에 존재하지 않는 다양성을 창출할 수 없음. 초기 컬렉션에 특정 집단의 문서가 부족하면, 아무리 훌륭한 리랭커라도 이를 보완할 수 없음.

의의 및 제언

상류 (Upstream) 개입의 필요성: 검색의 공정성을 높이기 위해서는 리랭킹 알고리즘 개선보다는 문서 컬렉션의 다양성 확보, 표현 격차 (Representational Gaps) 감사, 그리고 다양한 관점을 적극적으로 수렴하는 검색 전략이 선행되어야 함.
쿼리 이해의 중요성: 쿼리 형식 (자연어 vs 키워드) 이 모델 아키텍처보다 관련성과 공정성에 더 큰 영향을 미치므로, 쿼리 이해 기술에 대한 투자가 필요함.
미래 연구 방향: 추론 모델을 공정성 속성을 인식하도록 특화 (Specializing) 하거나, 공정성 인식 (Fairness-aware) 훈련 목표를 도입해야 함. 또한 AWRF 외의 다른 공정성 정의 (교차성, 보정 등) 로의 확장 연구가 필요함.

이 연구는 **"관련성을 위한 추론이 자동으로 공정성으로 이어지지 않는다"**는 중요한 통찰을 제공하며, AI 검색 시스템의 공정성 개선을 위해서는 알고리즘적 최적화뿐만 아니라 데이터 생태계 전반의 접근이 필요함을 강조합니다.