Vector Retrieval with Similarity and Diversity: How Hard Is It?

이 논문은 유사성과 다양성을 동시에 만족하는 벡터 검색 문제 (VRSD) 가 NP-완전임을 증명하고, 매개변수 없는 휴리스틱 알고리즘을 제안하여 기존 MMR 및 k-DPP 기법보다 우수한 성능을 입증합니다.

Hang Gao, Dong Deng, Yongfeng Zhang

게시일 2026-03-06
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"검색할 때 '유사한 것'과 '다양한 것'을 어떻게 동시에 잡을 것인가?"**라는 아주 실용적이고 중요한 질문에 대한 새로운 해법을 제시합니다.

한마디로 요약하자면, **"단순히 비슷한 것만 쏙쏙 뽑는 게 아니라, 질문의 핵심을 찌르면서도 서로 다른 관점을 가진 정보들을 한데 모아서 더 풍부한 답을 주는 새로운 방법 (VRSD)"**을 개발했다는 내용입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제 상황: "비슷한 것"과 "다양한 것" 사이의 줄다리기

우리가 검색을 할 때 (예: "건강한 아침 식사 추천") 두 가지가 필요합니다.

  1. 유사성 (Similarity): 질문과 딱 맞는 내용이어야 합니다. (예: '오트밀', '과일 샐러드')
  2. 다양성 (Diversity): 내용이 너무 중복되면 안 됩니다. (예: '오트밀', '오트밀', '오트밀'은 안 되고, '오트밀', '요구르트', '견과류'처럼 다양한 선택지가 있어야 합니다.)

기존에 가장 많이 쓰이던 방법 (MMR) 은 이 두 가지를 조절하기 위해 "λ(람다)"라는 조절 나사를 사용했습니다.

  • 비유: 마치 라디오 볼륨 조절처럼, "유사성 볼륨"과 "다양성 볼륨"을 손으로 돌려서 맞춰야 합니다.
  • 문제점: 이 나사를 어디에 두어야 최적인지 미리 알 수 없습니다. 상황에 따라 다르고, 실수하면 너무 비슷한 것만 나오거나, 전혀 관련 없는 것들이 섞여 나올 수 있습니다. 마치 "적당히 짜게"라고 말했지만, 사람마다 "적당함"의 기준이 달라서 요리가 실패하는 것과 같습니다.

2. 새로운 해법: "합의 벡터" (Sum Vector) 라는 아이디어

이 논문은 **"조절 나사 (λ) 없이도 자연스럽게 두 마리 토끼를 다 잡을 수 있다"**고 주장합니다. 그 비결은 **'벡터의 합 (Sum Vector)'**이라는 개념을 이용하는 것입니다.

🌟 핵심 비유: "팀워크가 좋은 팀을 고르는 게임"

질문 (Query) 을 **"미션"**이라고 상상해 보세요. 우리는 이 미션을 수행할 팀원 (검색 결과) 5 명을 뽑아야 합니다.

  • 기존 방식 (MMR): "너는 미션과 비슷해 (유사성), 근데 너는 이미 뽑힌 팀원과 너무 닮았으니 (비유사성) 제외할게"라고 하나씩 따져봅니다. 이때 '비슷함'과 '다름'의 기준을 정하는 숫자 (λ) 가 중요합니다.
  • 새로운 방식 (VRSD): "우리가 뽑은 5 명을 한데 합쳐서 (Sum) 보면, 그 합쳐진 팀이 미션과 얼마나 잘 맞는가?"를 봅니다.

왜 이게 다양성을 보장할까요?
수학적으로 증명되었는데, 아주 직관적인 기하학적 비유로 설명하면 다음과 같습니다.

비유: "중심에 서 있는 사람"

질문 (미션) 이 중앙에 서 있다고 칩시다. 우리가 뽑은 팀원들이 모두 질문의 정확히 같은 방향에서 모여들면, 그들을 합쳐도 질문과 똑같은 방향을 보게 됩니다. (유사성은 높지만 다양성은 0)

하지만, **합쳐진 결과 (팀의 총합)**가 질문과 최대한 가깝게 되려면, 팀원들은 질문을 향해 서로 다른 각도에서 모여들어야 합니다.

  • 한 팀원은 왼쪽에서, 한 팀원은 오른쪽에서, 또 다른 팀원은 위에서 질문을 향해 손을 뻗어야 **합쳐진 손 (Sum)**이 질문을 정확히 가리키게 됩니다.

즉, **"합쳐진 결과가 질문과 잘 맞게 하라"**는 조건 하나만 주면, 수학적으로 팀원들은 저절로 서로 다른 방향 (다양성) 에서 모이게 됩니다.

이것이 바로 이 논문의 핵심입니다. "유사성"을 극대화하는 과정 자체가 "다양성"을 자동으로 만들어낸다는 것입니다.

3. 이 방법이 얼마나 어려운 문제인가? (수학적 증명)

논문은 이 문제를 수학적으로 정의하고, **"이 문제는 컴퓨터가 완벽하게 풀기엔 너무 어렵다 (NP-Complete)"**는 것을 증명했습니다.

  • 비유: "주어진 재료로 가장 맛있는 요리를 만들되, 모든 재료를 다 써야 하고, 맛의 균형도 완벽해야 한다"는 문제를 푸는 것은, 재료가 조금만 많아져도 모든 경우의 수를 다 따져보는 것보다 훨씬 어렵다는 뜻입니다.
  • 해결책: 그래서 완벽하게 푸는 대신, **매우 똑똑한 추측 (Heuristic)**을 통해 거의 완벽에 가까운 답을 빠르게 찾아내는 알고리즘을 만들었습니다.

4. 실험 결과: 실제로 효과가 있을까?

이 새로운 방법 (VRSD) 을 기존 방식 (MMR) 과 다른 유명한 방법 (k-DPP) 과 비교해 봤습니다.

  • 결과: 과학 퀴즈 데이터셋에서 VRSD 가 일관적으로 더 좋은 점수를 받았습니다.
  • 특이점: 기존 방식은 "유사성"을 높이면 "다양성"이 떨어지고, "다양성"을 높이면 "유사성"이 떨어지는 딜레마가 있었지만, VRSD 는 두 마리 토끼를 동시에 잡았습니다.
  • LLM 평가: 최신 AI(거대 언어 모델) 를 "사람 심사위원"처럼 시켜서 평가하게 했을 때도, VRSD 가 뽑은 결과들이 더 유용하고 다양하다고 평가받았습니다.

5. 결론: 왜 이 논문이 중요한가?

이 논문은 **"검색을 할 때 복잡한 조절 나사 (파라미터) 를 돌릴 필요 없이, 수학적인 원리 하나로 자연스럽게 '맞는 것'과 '다양한 것'을 모두 얻을 수 있다"**는 것을 증명했습니다.

  • 기존: "조금 더 다양하게 해줘"라고 말하면, "그럼 관련 없는 것도 섞일 수 있어"라고 대답하던 시대.
  • 새로운 시대 (VRSD): "질문과 가장 잘 맞는 팀을 만들어줘"라고만 하면, 자동으로 질문과 잘 맞으면서도 서로 다른 관점을 가진 팀원들이 모여드는 시대.

이 기술은 AI 가 정보를 찾아주는 모든 분야 (검색 엔진, 챗봇, 추천 시스템 등) 에서 더 정확하고 풍부한 답변을 주는 데 큰 기여를 할 것으로 기대됩니다.