Why Large Language Models can Secretly Outperform Embedding Similarity in Information Retrieval

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"정보 검색 (검색 엔진)"**의 미래를 바꾸고 있는 두 가지 기술, 즉 **'임베딩 (Embedding)'**과 **'대규모 언어 모델 (LLM)'**의 대결을 다룹니다.

저자들은 **"LLM 은 사실 더 똑똑할 수 있는데, 우리가 쓰는 평가 기준 때문에 그 능력을 제대로 보여주지 못하고 있다"**는 놀라운 주장을 펼칩니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

검색 엔진은 사용자의 질문 (쿼리) 에 맞는 문서를 찾아주는 역할을 합니다. 이 논문은 두 가지 방식의 전문가를 비교했습니다.

유사성 탐정 (NERS - 임베딩 기반):
- 방식: "단어가 얼마나 비슷하게 생겼나?"를 봅니다.
- 비유: 이 탐정은 키워드 매칭에 능합니다. 질문이 "맥도날드 더블치즈버거와 맥더블의 차이"라면, 문서에 '맥도날드', '치즈버거', '맥더블'이라는 단어가 많이 나오면 "아, 이건 정답이야!"라고 생각합니다.
- 단점: 질문과 문서의 의미는 다르지만, 단어가 비슷하면 정답으로 착각합니다. 반대로, 정답인데 단어가 전혀 다르다면 놓쳐버립니다.
이해력 탐정 (LLM-RJS - 언어 모델 기반):
- 방식: "질문의 의도를 이해하고 논리적으로 추론해 보자."
- 비유: 이 탐정은 문맥과 논리를 파악합니다. 질문이 "맥도날드 더블치즈버거와 맥더블의 차이"일 때, 문서에 "치즈가 한 조각 더 들어가고 20 센트 비싸다"라고만 적혀 있어도, 단어가 비슷하지 않아도 **"아, 이게 정답이구나!"**라고 추론할 수 있습니다.

연구진은 실제 검색 데이터 (TREC-DL 2019) 를 가지고 두 탐정에게 검색 과제를 시켰습니다. 결과는 놀라웠습니다.

이 논문의 가장 중요한 발견은 **"인간 채점관들도 '단어 유사성'에 너무 집착해서 정답을 놓치고 있었다"**는 점입니다.

상황:
- 질문: "맥더블과 더블치즈버거의 차이는?"
- 정답 문서: "치즈가 한 조각 더 들어가고 20 센트 비싸다." (단어가 '맥더블'이나 '치즈버거'와 완벽히 일치하지는 않음)
- LLM 의 판단: "정답이다! (점수 3 점)"
- 인간 채점관의 판단: "단어가 안 맞네. 관련성 없어. (점수 0 점)"
비유:
마치 수학 시험에서 학생이 "3+3=6"이라고 적었는데, 채점관이 "문제에 3+3 이라고 적힌 게 없으니 오답"이라고 처리하는 것과 비슷합니다.
LLM 은 논리로 정답을 찾았지만, 인간 채점관은 **단어의 겉모습 (유사성)**만 보고 "틀렸다"고 점수를 뺐습니다.

그래서 LLM 이 아무리 똑똑해도, **인간이 만든 '오류가 있는 정답지' (Short-sighted annotations)**를 기준으로 평가받으면, 오히려 단순한 유사성 탐정보다 성적이 낮게 나오는 것입니다.

LLM 은 실제로 더 똑똑합니다: LLM 은 단어의 겉모습이 달라도 문맥을 이해해 정답을 찾아냅니다.
하지만 평가 기준이 구립니다: 우리가 쓰는 기존 데이터셋 (정답지) 은 인간 채점관들이 만든 '단어 중심'의 편견으로 가득 차 있습니다.
진짜 승자는 LLM 일 수 있습니다: 만약 우리가 "단어 유사성"이 아니라 "진짜 의미"를 기준으로 평가한다면, LLM 기반 검색 시스템이 기존 시스템을 압도할 것입니다.

이 논문은 **"LLM 은 이미 검색 분야에서 더 뛰어난 능력을 가지고 있지만, 우리가 그 능력을 제대로 측정할 수 있는 '자' (평가 기준) 가 아직 구리다"**라고 말합니다.

우리가 더 똑똑한 AI 를 쓰려면, 단순히 "단어가 비슷한가?"를 묻는 것이 아니라, **"질문의 의도를 진짜로 이해했는가?"**를 평가할 수 있는 새로운 기준이 필요하다는 것입니다.

유사한 논문