Each language version is independently generated for its own context, not a direct translation.

TREC 2025 RAG 트랙: "지식 탐험가"를 위한 새로운 도전

안녕하세요! 오늘 소개해 드릴 논문은 **'TREC 2025 RAG 트랙'**이라는 정보 검색 분야의 대규모 대회에 대한 이야기입니다. 이 대회를 이해하기 위해 복잡한 기술 용어 대신, **'정교한 여행 가이드'**와 **'신뢰할 수 있는 도서관 사서'**의 비유를 들어 설명해 보겠습니다.

1. 대회의 핵심: "단순한 검색"에서 "깊은 탐험"으로

과거의 검색 엔진은 사용자가 "축구 선수 연봉"이라고 치면, 딱 그 단어만 포함된 문서를 찾아주는 **'키워드 검색기'**였습니다. 하지만 이번 2025 년 대회는 상황이 완전히 달라졌습니다.

과거: "축구 선수 연봉" (단어 검색)
2025 년: "스포츠가 사회에 미치는 영향을 알고 싶어. 특히 선수들의 급여 불평등, 다양한 인종과 성별의 참여, 스포츠가 문화에 미치는 영향, 그리고 스포츠 비즈니스의 숨겨진 진실, 그리고 최신 장비와 훈련 방식이 선수와 스포츠 인기에 어떻게 영향을 미치는지 깊이 있게 설명해 줘."

이처럼 사용자의 질문이 긴 이야기 (내러티브) 형태로 바뀌었습니다. 사용자는 더 이상 단순한 답을 원하지 않고, 여러 각도를 종합하고 논리적으로 추론한 **'깊은 탐험의 결과물'**을 원합니다.

2. 참가자들의 역할: "지식 탐험가" (AI 시스템)

이 대회에 참가한 AI 시스템들은 마치 고급 여행 가이드와 같습니다. 이들은 다음과 같은 임무를 수행해야 합니다.

정보 수집 (검색): 거대한 도서관 (MS MARCO 문서 데이터베이스) 에서 여행 목적지에 맞는 책들을 찾아옵니다.
정보 종합 (생성): 찾아온 책들의 내용을 읽고, 사용자의 긴 질문 (여행 계획) 에 맞춰 완벽한 여행 가이드북을 작성합니다.
출처 명시 (할인): 가이드북의 모든 문장에 "이 정보는 A 책 3 페이지에서 왔습니다"라고 **각주 (Citation)**를 달아야 합니다.

핵심 규칙: "무작정 지어내지 마라!" (할루시네이션 금지). 모든 말은 찾아온 책에 근거해야 하며, 그 근거를 명확히 보여줘야 합니다.

3. 평가 방법: "엄격한 심사위원단"이 보는 4 가지 단계

이 가이드북이 얼마나 좋은지 심사하는 과정은 매우 정교합니다. 마치 요리 대회를 심사하듯 4 단계로 나뉩니다.

① 관련성 평가 (Relevance): "책이 여행 목적에 맞을까?"

심사위원은 찾아온 책들이 사용자의 긴 질문 (여행 계획) 중 몇 가지 요소를 해결해 주는지 봅니다.

0 점: 전혀 관련 없음.
4 점: 여행 계획의 모든 요소 (급여, 문화, 비즈니스 등) 를 완벽하게 다룬 책.
비유: 여행 계획에 '비자 발급'이 필요한데, 찾아온 책이 '맛있는 맛집'만 소개한다면 점수가 낮겠죠?

② 답변 완성도 평가 (Response Evaluation): "가이드북이 모든 것을 다 담았을까?"

AI 가 쓴 답변이 사용자의 질문에 대한 핵심 정보 (Nuggets) 를 얼마나 빠뜨리지 않고 담았는지 봅니다.

생각해 볼 점: "선수 급여 불평등"이라는 중요한 주제를 빠뜨리고 "스포츠의 즐거움"만 이야기했다면, 중요한 정보를 놓친 것입니다.

③ 근거 확인 평가 (Support Evaluation): "말한 게 사실일까?"

가장 중요한 단계입니다. 가이드북의 한 문장 ("선수들은 평균 연봉이 1 억 원이다") 을 확인하고, 그 문장에 적힌 출처 (책) 를 열어보아 정말 그 책에 그렇게 쓰여 있는지 확인합니다.

Full Support: 책에 정확히 써 있음.
Partial Support: 책에 일부만 써 있거나, 다른 부분이 섞임.
No Support: 책에 전혀 관련 없음 (거짓말!).

④ 합의 분석 (Agreement Analysis): "심사위원들끼리 의견이 같을까?"

사람 심사위원과 AI 심사위원 (대형 언어 모델) 의 점수가 얼마나 일치하는지 봅니다. 사람이 "이 책은 훌륭하다"고 했을 때, AI 도 똑같이 판단하는지 확인하여 AI 평가 시스템의 신뢰도를 높입니다.

4. 이번 대회의 성과와 의미

이번 대회에는 전 세계 150 개 이상의 팀이 참여했습니다. 결과는 다음과 같습니다.

진행 상황: AI 들은 긴 이야기를 이해하고, 여러 책을 찾아서 논리적으로 연결하는 능력이 크게 향상되었습니다.
한계점: 하지만 아직 완벽하지는 않습니다. 특히 "어떤 책이 정말 중요한지 (관련성)"를 판단하는 부분에서 AI 와 인간 심사위원의 의견 차이가 여전히 존재합니다.
미래: 이번 대회를 통해 우리는 신뢰할 수 있는 AI를 만드는 길을 찾았습니다. AI 가 단순히 지식을 나열하는 것을 넘어, **사실에 기반하여 투명하게 설명하는 '진정한 지식 파트너'**로 발전할 수 있는 토대가 마련되었습니다.

요약: 왜 이 대회가 중요할까요?

이 대회는 **"AI 가 거짓말을 하지 않고, 복잡한 질문에 대해 정확한 근거를 들어 설명할 수 있는가?"**를 검증하는 시험입니다.

마치 정직한 여행 가이드가 되어, "어디가 좋은가요?"라고 물었을 때 단순히 "여기 좋아요"라고 말하지 않고, "A 책에 따르면 이곳이 안전하고, B 책에 따르면 음식이 맛있다고 하네요"라고 출처를 명확히 밝히며 답하는 시스템을 만드는 것이 목표입니다.

이러한 기술이 발전하면, 우리가 뉴스나 정보를 찾을 때 AI 가 사실 확인이 된 신뢰할 수 있는 정보를 제공해 주어, 가짜 뉴스나 오해에서 벗어날 수 있는 세상이 올 것입니다.

Each language version is independently generated for its own context, not a direct translation.

TREC 2025 RAG 트랙 기술 요약

1. 문제 정의 (Problem)

기존의 검색 및 생성 시스템은 주로 짧은 키워드 쿼리에 최적화되어 있었으나, 실제 사용자의 정보 요구는 복잡하고 다층적인 서술형 (narrative) 형태를 띠는 경우가 많습니다. TREC 2025 RAG 트랙은 이러한 **복잡한 실세계 정보 요구 (complex, real-world information needs)**를 해결하기 위해 설계되었습니다.

핵심 과제: 단순한 키워드 매칭을 넘어, 긴 다문장 서술형 쿼리에 대해 추론 (reasoning) 기반의 답변을 생성하고, 그 근거를 명확히 제시 (attribution) 하는 시스템 개발.
도전 과제: 생성된 답변의 사실성 (factual grounding) 보장, 투명성 유지, 그리고 여러 문서에 걸친 정보의 통합 및 종합 능력 평가.

2. 방법론 (Methodology)

2.1 데이터 및 태스크 설정

코퍼스: MS MARCO V2.1 문서 코퍼스를 사용하며, 중복 제거 (deduplication) 및 세그먼트 (segment) 단위로 분할된 데이터를 제공합니다.
쿼리 (Narrative): 단순한 검색어 대신, 105 개의 복잡한 서술형 쿼리 (narratives) 를 사용했습니다. 이는 관련 검색어 클러스터를 기반으로 자동 생성 및 인간 검수를 통해 완성되었습니다.
4 가지 주요 태스크:
1. Retrieval (R): 서술형 쿼리에 대한 상위 100 개 문서 세그먼트 검색.
2. Augmented Generation (AG): 제공된 상위 문서 목록을 기반으로 답변 생성 (검색은 고정).
3. Retrieval Augmented Generation (RAG): 검색부터 생성까지 전체 파이프라인을 자체 구축하여 평가.
4. Relevance Judgment (RJ): (신규) 개별 문서가 서술형 쿼리의 하위 주제 (sub-narratives) 를 얼마나 잘 다루는지 평가.

2.2 평가 프레임워크 (Multi-layered Evaluation)
TREC 2025 는 단순한 정확도 측정을 넘어 다음과 같은 다층적 평가 방식을 도입했습니다.

관련성 평가 (Relevance Assessment):
- 하위 서술 (Sub-narratives) 분해: 복잡한 쿼리를 1~12 단어의 독립적인 하위 질문 (atomic sub-queries) 으로 분해합니다.
- 점수화: 문서가 하위 서술을 몇 개나 상세히 다루는지에 따라 0(무관) 에서 4(완벽한 관련) 까지 점수를 매깁니다.
- 자동화: GPT-4.1, Gemini 2.5 Pro, Qwen3 등 다양한 LLM 앙상블을 활용한 자동 관련성 평가 (AutoNuggetizer) 와 인간 평가 (NIST) 를 병행하여 검증합니다.
답변 평가 (Response Evaluation):
- Nugget (핵심 정보 단위) 매핑: 답변의 핵심 정보 단위를 추출하여 하위 서술과 매핑합니다.
- 지표: 'Strict Vital Recall' (필수 정보의 회수율) 과 'Sub-narrative Coverage' (하위 주제 커버리지) 를 주요 지표로 사용합니다.
지지 평가 (Support Evaluation):
- 문장 단위 검증: 생성된 답변의 각 문장이 인용된 문서에 의해 사실적으로 지지되는지 확인합니다.
- 등급: Full Support (전체 지지), Partial Support (부분 지지), No Support (무지지) 로 분류합니다.
- 지표: 가중 정밀도 (Weighted Precision) 와 가중 재현율 (Weighted Recall) 을 계산합니다.

3. 주요 기여 (Key Contributions)

서술형 쿼리 (Narrative Queries) 의 도입: 키워드 기반 검색에서 벗어나, 실제 연구나 조사와 유사한 긴 다문장 쿼리를 표준으로 제시하여 RAG 시스템의 심층 추론 능력을 평가하는 새로운 벤치마크를 확립했습니다.
세분화된 평가 체계 (Granular Evaluation Framework):
- 문서의 관련성을 전체가 아닌 '하위 서술' 단위로 평가하여 정밀도를 높였습니다.
- 답변의 사실성을 문장 - 인용 문서 쌍 단위로 검증하는 'Support Evaluation'을 체계화했습니다.
자동화 및 인간 평가의 비교 분석: LLM 기반 자동 평가 (AutoNuggetizer, GPT-OSS 등) 와 인간 평가 (NIST) 간의 상관관계를 정량적으로 분석하여, 자동 평가가 런 (run) 레벨에서는 인간 평가와 높은 일치도를 보임을 입증했습니다.
대규모 참여 및 데이터: 150 개 이상의 제출물 (submissions) 을 통해 다양한 RAG 파이프라인 아키텍처 (검색 - 재랭킹 - 생성, 에이전트 기반 등) 의 성능을 비교 분석했습니다.

4. 결과 (Results)

검색 (Retrieval) 태스크:
- 12 개 그룹의 46 개 런이 참여했습니다.
- 성능: SPLADE-v3 와 Snowflake Arctic-Embed-L 의 융합 (Reciprocal Rank Fusion) 및 RankLLM, RankQwen3-32B 를 활용한 다단계 재랭킹 파이프라인이 가장 높은 nDCG@100 점수를 기록했습니다.
- 자동 평가 신뢰도: 자동 평가 점수와 인간 평가 점수 간의 켄달의 타우 (Kendall's $\tau$ ) 상관관계가 런 레벨에서 매우 높게 나타나, 자동 평가가 런 순위 예측에 유효함을 보였습니다.
생성 (AG/RAG) 태스크:
- 16 개 그룹 (RAG) 과 9 개 그룹 (AG) 이 참여했습니다.
- 성능: 'Strict Vital Score'와 'Sub-narrative Coverage'에서 상위권 시스템은 필수 정보 (Vital nuggets) 를 잘 포착하고 하위 주제를 광범위하게 다루는 경향을 보였습니다.
- 자동화 영향: Nugget 생성을 자동화하되 인간이 관련성 판단 (qrels) 을 하는 설정이, 완전히 자동화된 설정보다 더 안정적인 결과를 보여주었습니다.
지지 평가 (Support Evaluation):
- GPT-OSS 120B 를 사용한 자동 지지 평가는 인간 평가자와 높은 상관관계를 보였으며, 특히 가중 정밀도/재현율 측면에서 시스템의 전체적인 순위를 잘 반영했습니다.
관련성 판단 (RJ) 태스크:
- 자동화된 관련성 판단 모델과 인간 평가자 간의 일치도 (Agreement Fraction) 는 0.30~0.34 수준으로, 여전히 자동화가 인간 수준의 판단을 완전히 대체하기는 어려운 과제로 남았습니다.

5. 의의 및 결론 (Significance)

TREC 2025 RAG 트랙은 정보 검색 (IR) 과 자연어 처리 (NLP) 분야에서 신뢰할 수 있고 맥락을 인지하는 RAG 시스템 개발을 위한 중요한 이정표가 되었습니다.

연구 방향 전환: 단순한 정보 검색에서 '추론 기반의 종합적 답변 생성'으로 연구 초점을 이동시켰습니다.
신뢰성 확보: 인용 (Attribution) 과 사실성 검증 (Fact-checking) 을 평가의 핵심 요소로 포함시켜, AI 시스템의 할루시네이션을 줄이고 신뢰도를 높이는 기술 개발을 촉진했습니다.
미래 지향성: 자동 평가 도구의 발전 가능성을 보여주면서도, 복잡한 정보 요구를 처리하는 데 있어 인간 평가의 중요성과 한계를 동시에 제시함으로써, 향후 더 정교한 평가 메트릭과 시스템 설계에 대한 통찰을 제공했습니다.

이 트랙을 통해 개발된 기술과 평가 기준은 향후 실제 산업 환경에서 복잡한 정보 탐색이 필요한 AI 에이전트 및 검색 시스템의 표준으로 자리 잡을 것으로 기대됩니다.

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track