On the Theoretical Limitations of Embedding-Based Retrieval

이 논문은 임베딩 차원에 의해 토크-k 문서 집합의 표현이 이론적으로 제한된다는 사실을 증명하고, 단순한 작업에서도 최첨단 모델이 이를 극복하지 못함을 보여주어 단일 벡터 패러다임의 근본적 한계를 지적합니다.

Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee

게시일 Fri, 13 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"벡터 임베딩 (Vector Embedding)"**이라는 기술이 가진 숨겨진 한계를 아주 흥미로운 방식으로 밝혀낸 연구입니다.

간단히 말해, **"컴퓨터가 문서를 이해하는 방식에 근본적인 '물리적' 한계가 있다"**는 것을 증명했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 배경: 컴퓨터는 어떻게 문서를 이해할까요?

지금 우리가 쓰는 검색 엔진이나 AI 는 문서를 이해할 때, 그 내용을 **숫자 목록 (벡터)**으로 바꿉니다. 마치 문서를 "3 차원 공간에 있는 점"으로 표현하는 것처럼요.

  • 예시: "사과"라는 문서는 (0.1, 0.9, 0.2) 같은 좌표로, "바나나"는 (0.8, 0.1, 0.3) 같은 좌표로 저장됩니다.
  • 원리: 두 점 사이의 거리가 가까우면, 컴퓨터는 "이 두 문서는 비슷하다"고 판단합니다.

최근에는 이 기술이 더 발전해서, "사과와 오렌지를 모두 좋아하는 사람 찾기"처럼 복잡한 지시 (Instruction) 도 수행할 수 있다고 믿어졌습니다.

2. 문제 제기: "모든 조합을 표현할 수 있을까?"

연구자들은 궁금해했습니다. "컴퓨터가 문서를 숫자 점으로만 표현한다면, 사용자가 원하는 '모든 가능한 조합'을 찾아낼 수 있을까?"

예를 들어, 도서관에 책이 100 권 있다고 칩시다.

  • "사과가 나오는 책"을 찾는 건 쉬울 수 있습니다.
  • 하지만 "사과가 나오면서, 동시에 '오렌지'는 안 나오는데, '바나나'는 나오는 책"을 찾는 건 어떨까요?
  • 더 나아가, "사과, 오렌지, 바나나, 포도, 수박..." 등 100 권의 책 중 어떤 2 권의 조합이든 사용자가 지시하면 그걸 찾아낼 수 있을까요?

3. 핵심 발견: "우주 공간의 한계" (이론적 증명)

논문의 저자들은 수학 (기하학) 을 이용해 놀라운 사실을 증명했습니다.

"문서를 표현하는 숫자의 개수 (차원, Dimension) 가 정해져 있다면, 그 공간 안에 모든 가능한 조합을 넣을 수는 없다."

🍊 비유: 좁은 방과 수많은 손님

  • 방 (Embedding Space): 컴퓨터가 문서를 넣는 공간입니다. 이 방의 크기는 **숫자 개수 (차원)**로 결정됩니다. (예: 1024 차원 = 1024 개의 벽이 있는 방)
  • 손님 (Document Combinations): 사용자가 찾을 수 있는 모든 문서 조합입니다. 문서가 조금만 많아져도 조합의 수는 기하급수적으로 늘어납니다. (우주에 있는 원자 수보다 많을 수도 있습니다!)

결론: 방이 아무리 커도 (차원이 높아도), 손님이 너무 많으면 모든 손님이 동시에 들어갈 수 있는 자리를 마련해 줄 수 없습니다. 어떤 특정 조합은 "방이 꽉 차서" 절대 찾아낼 수 없게 됩니다.

이는 단순히 AI 가 똑똑하지 않아서가 아니라, 수학적으로 불가능한 일이라는 뜻입니다.

4. 실험: "최고의 상황에서도 실패했다"

저자들은 "아마도 훈련 데이터가 부족해서 그런 게 아닐까?"라고 생각했습니다. 그래서 가장 이상적인 상황을 만들어 실험해 봤습니다.

  • 실험 설정: 자연어 (사람 말) 를 쓰지 않고, 오직 숫자 (벡터) 만을 직접 만들어서 테스트했습니다. 즉, AI 가 "이건 정답이다"라고 알고 있는 데이터에 맞춰서 벡터를 직접 최적화하는 상황입니다. (가장 편한 조건)
  • 결과: 그래도 실패했습니다! 문서가 일정 개수만 넘어가면, 아무리 벡터를 잘 조정해도 모든 조합을 찾아내는 게 불가능해졌습니다.

5. LIMIT 데이터셋: "너무 쉬워서 오히려 어려운 퀴즈"

이론을 증명하기 위해 LIMIT라는 새로운 테스트 데이터를 만들었습니다.

  • 내용: "조니는 사과를 좋아하고, 오비드는 토끼를 좋아한다" 같은 아주 단순한 사실만 나열된 데이터입니다.
  • 질문: "사과를 좋아하는 사람은 누구인가?"
  • 결과: 최신 AI 모델 (GritLM, Gemini 등) 이 이 아주 단순한 질문에도 완전히 망가졌습니다.
    • 왜일까요? 질문이 단순해서가 아니라, "사과 + 토끼"를 동시에 만족하는 조합을 찾아내는 것이, 그 모델의 숫자 공간 (차원) 에는 물리적으로 들어갈 수 없는 자리였기 때문입니다.

6. 대안은 무엇일까?

그렇다면 우리는 포기해야 할까요? 아닙니다. 논문의 결론은 다음과 같습니다.

  1. 단일 벡터 (Single Vector) 의 한계: 문서를 하나의 점으로만 표현하는 방식은 더 이상 확장되지 않습니다.
  2. 새로운 접근법 필요:
    • Cross-Encoders: 문서를 한 번에 비교하는 방식 (비행기 두 대를 나란히 세워 비교하는 것).
    • Multi-vector: 문서를 여러 개의 점으로 나누어 표현하는 방식 (한 문서를 여러 개의 조각으로 쪼개서 비교).
    • Sparse Models: 단어 하나하나를 세는 전통적인 방식 (BM25) 이 오히려 이 문제에서는 더 잘 작동하기도 했습니다.

📝 요약: 이 논문이 우리에게 주는 메시지

"컴퓨터가 문서를 '하나의 점'으로만 표현하는 한, 아무리 똑똑한 AI 를 만들어도 모든 질문을 답할 수는 없습니다. 수학적으로 '자리'가 없기 때문입니다. 이제 우리는 문서를 더 복잡하고 유연하게 표현하는 새로운 방법을 찾아야 합니다."

이 연구는 AI 업계에 "더 큰 모델, 더 많은 데이터"만으로는 해결되지 않는 근본적인 물리적 한계가 있음을 경고하며, 새로운 기술적 돌파구를 모색하라고 촉구하고 있습니다.