Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

TREC 2025 RAG 트랙은 2024 년 트랙의 기반 위에 복잡한 추론이 필요한 긴 서술형 쿼리를 도입하고, MS MARCO V2.1 코퍼스를 활용하여 투명성과 사실 기반성을 보장하는 신뢰할 수 있는 검색 증강 생성 시스템의 혁신을 촉진하기 위해 150 건 이상의 참가자 제출물을 평가했습니다.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin

게시일 Wed, 11 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

TREC 2025 RAG 트랙: "지식 탐험가"를 위한 새로운 도전

안녕하세요! 오늘 소개해 드릴 논문은 **'TREC 2025 RAG 트랙'**이라는 정보 검색 분야의 대규모 대회에 대한 이야기입니다. 이 대회를 이해하기 위해 복잡한 기술 용어 대신, **'정교한 여행 가이드'**와 **'신뢰할 수 있는 도서관 사서'**의 비유를 들어 설명해 보겠습니다.

1. 대회의 핵심: "단순한 검색"에서 "깊은 탐험"으로

과거의 검색 엔진은 사용자가 "축구 선수 연봉"이라고 치면, 딱 그 단어만 포함된 문서를 찾아주는 **'키워드 검색기'**였습니다. 하지만 이번 2025 년 대회는 상황이 완전히 달라졌습니다.

  • 과거: "축구 선수 연봉" (단어 검색)
  • 2025 년: "스포츠가 사회에 미치는 영향을 알고 싶어. 특히 선수들의 급여 불평등, 다양한 인종과 성별의 참여, 스포츠가 문화에 미치는 영향, 그리고 스포츠 비즈니스의 숨겨진 진실, 그리고 최신 장비와 훈련 방식이 선수와 스포츠 인기에 어떻게 영향을 미치는지 깊이 있게 설명해 줘."

이처럼 사용자의 질문이 긴 이야기 (내러티브) 형태로 바뀌었습니다. 사용자는 더 이상 단순한 답을 원하지 않고, 여러 각도를 종합하고 논리적으로 추론한 **'깊은 탐험의 결과물'**을 원합니다.

2. 참가자들의 역할: "지식 탐험가" (AI 시스템)

이 대회에 참가한 AI 시스템들은 마치 고급 여행 가이드와 같습니다. 이들은 다음과 같은 임무를 수행해야 합니다.

  1. 정보 수집 (검색): 거대한 도서관 (MS MARCO 문서 데이터베이스) 에서 여행 목적지에 맞는 책들을 찾아옵니다.
  2. 정보 종합 (생성): 찾아온 책들의 내용을 읽고, 사용자의 긴 질문 (여행 계획) 에 맞춰 완벽한 여행 가이드북을 작성합니다.
  3. 출처 명시 (할인): 가이드북의 모든 문장에 "이 정보는 A 책 3 페이지에서 왔습니다"라고 **각주 (Citation)**를 달아야 합니다.

핵심 규칙: "무작정 지어내지 마라!" (할루시네이션 금지). 모든 말은 찾아온 책에 근거해야 하며, 그 근거를 명확히 보여줘야 합니다.

3. 평가 방법: "엄격한 심사위원단"이 보는 4 가지 단계

이 가이드북이 얼마나 좋은지 심사하는 과정은 매우 정교합니다. 마치 요리 대회를 심사하듯 4 단계로 나뉩니다.

① 관련성 평가 (Relevance): "책이 여행 목적에 맞을까?"

심사위원은 찾아온 책들이 사용자의 긴 질문 (여행 계획) 중 몇 가지 요소를 해결해 주는지 봅니다.

  • 0 점: 전혀 관련 없음.
  • 4 점: 여행 계획의 모든 요소 (급여, 문화, 비즈니스 등) 를 완벽하게 다룬 책.
  • 비유: 여행 계획에 '비자 발급'이 필요한데, 찾아온 책이 '맛있는 맛집'만 소개한다면 점수가 낮겠죠?

② 답변 완성도 평가 (Response Evaluation): "가이드북이 모든 것을 다 담았을까?"

AI 가 쓴 답변이 사용자의 질문에 대한 핵심 정보 (Nuggets) 를 얼마나 빠뜨리지 않고 담았는지 봅니다.

  • 생각해 볼 점: "선수 급여 불평등"이라는 중요한 주제를 빠뜨리고 "스포츠의 즐거움"만 이야기했다면, 중요한 정보를 놓친 것입니다.

③ 근거 확인 평가 (Support Evaluation): "말한 게 사실일까?"

가장 중요한 단계입니다. 가이드북의 한 문장 ("선수들은 평균 연봉이 1 억 원이다") 을 확인하고, 그 문장에 적힌 출처 (책) 를 열어보아 정말 그 책에 그렇게 쓰여 있는지 확인합니다.

  • Full Support: 책에 정확히 써 있음.
  • Partial Support: 책에 일부만 써 있거나, 다른 부분이 섞임.
  • No Support: 책에 전혀 관련 없음 (거짓말!).

④ 합의 분석 (Agreement Analysis): "심사위원들끼리 의견이 같을까?"

사람 심사위원과 AI 심사위원 (대형 언어 모델) 의 점수가 얼마나 일치하는지 봅니다. 사람이 "이 책은 훌륭하다"고 했을 때, AI 도 똑같이 판단하는지 확인하여 AI 평가 시스템의 신뢰도를 높입니다.

4. 이번 대회의 성과와 의미

이번 대회에는 전 세계 150 개 이상의 팀이 참여했습니다. 결과는 다음과 같습니다.

  • 진행 상황: AI 들은 긴 이야기를 이해하고, 여러 책을 찾아서 논리적으로 연결하는 능력이 크게 향상되었습니다.
  • 한계점: 하지만 아직 완벽하지는 않습니다. 특히 "어떤 책이 정말 중요한지 (관련성)"를 판단하는 부분에서 AI 와 인간 심사위원의 의견 차이가 여전히 존재합니다.
  • 미래: 이번 대회를 통해 우리는 신뢰할 수 있는 AI를 만드는 길을 찾았습니다. AI 가 단순히 지식을 나열하는 것을 넘어, **사실에 기반하여 투명하게 설명하는 '진정한 지식 파트너'**로 발전할 수 있는 토대가 마련되었습니다.

요약: 왜 이 대회가 중요할까요?

이 대회는 **"AI 가 거짓말을 하지 않고, 복잡한 질문에 대해 정확한 근거를 들어 설명할 수 있는가?"**를 검증하는 시험입니다.

마치 정직한 여행 가이드가 되어, "어디가 좋은가요?"라고 물었을 때 단순히 "여기 좋아요"라고 말하지 않고, "A 책에 따르면 이곳이 안전하고, B 책에 따르면 음식이 맛있다고 하네요"라고 출처를 명확히 밝히며 답하는 시스템을 만드는 것이 목표입니다.

이러한 기술이 발전하면, 우리가 뉴스나 정보를 찾을 때 AI 가 사실 확인이 된 신뢰할 수 있는 정보를 제공해 주어, 가짜 뉴스나 오해에서 벗어날 수 있는 세상이 올 것입니다.