Approximate Nearest Neighbor Search for Modern AI: A Projection-Augmented Graph Approach

이 논문은 현대 AI 애플리케이션의 다양한 요구사항을 충족하기 위해 투영 기법을 그래프 인덱스에 통합하여 기존 방법보다 5 배 빠른 검색 속도와 우수한 성능을 제공하는 새로운 근사 최근접 이웃 검색 프레임워크인 '투영 증강 그래프 (PAG)'를 제안합니다.

Kejing Lu, Zhenpeng Pan, Jianbin Qin, Yoshiharu Ishikawa, Chuan Xiao

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: 도서관의 혼란 (기존 기술의 한계)

상상해 보세요. 수백만 권의 책 (데이터) 이 있는 거대한 도서관이 있습니다. 손님이 "이 책과 가장 비슷한 책 10 권을 찾아줘"라고 요청합니다.

  • 기존의 방식 (HNSW 등): 사서가 모든 책의 제목을 하나하나 읽어보며 비교합니다. 정확하지만, 책이 너무 많으면 시간이 너무 오래 걸려 손님이 화를 냅니다.
  • 다른 방식 (양자화 등): 책의 제목을 줄여서 (예: "로봇"만 기억하고 "로봇과 미래"는 "로봇"으로 통일) 빠르게 찾습니다. 속도는 빠르지만, 중요한 뉘앙스를 놓쳐서 엉뚱한 책을 건네줄 때가 많습니다.

현대 AI 가 원하는 것:

  1. 속도: 손님이 요청하면 즉시 찾아줘야 함.
  2. 정확도: 엉뚱한 책을 주면 안 됨.
  3. 메모리: 도서관이 너무 커지면 건물을 지을 수 없으므로, 책장을 적게 차지해야 함.
  4. 유연성: 책이 계속 추가되거나 (온라인 삽입), 찾는 책의 수 (10 권 vs 1,000 권) 가 변해도 똑같이 잘 작동해야 함.

기존 기술들은 이 모든 조건을 동시에 만족시키기 힘들었습니다.


2. PAG 의 해결책: "스마트한 사서"와 "예측 시스템"

이 논문이 제안한 PAG는 도서관 사서에게 두 가지 강력한 도구를 줍니다.

① "예측 안경" (Projection - 투영)

사서는 모든 책을 다 읽지 않습니다. 대신 책의 표지나 첫 페이지만 빠르게 훑어보는 **'예측 안경'**을 낍니다.

  • 이 안경을 통해 "아, 이 책은 저 책과 너무 달라서 비교할 필요 없겠군"이라고 미리 걸러냅니다.
  • 하지만 안경이 100% 정확하지는 않으므로, "아마 비슷할 것 같은" 책들은 나중에 정밀하게 비교합니다.
  • 핵심: 불필요한 정밀 비교를 아껴서 속도를 5 배까지 높입니다.

② "오류 수정 메모장" (Test Feedback Buffer - TFB)

예측 안경이 가끔 실수를 할 때가 있습니다. ("이건 다를 거야"라고 했는데, 알고 보니 비슷했음).

  • 기존 기술들은 이 실수를 그냥 버렸습니다.
  • PAG 의 TFB는 이 실수한 책들을 **'오류 수정 메모장'**에 적어둡니다.
  • 다음에 비슷한 책을 찾을 때, 이 메모장을 보고 "아, 전에 이 책이 실수였으니 이번엔 꼭 확인하자"라고 재사용합니다.
  • 효과: 실수를 반복하지 않아서 검색 속도가 더 빨라지고, 인덱스 (목록) 를 만드는 시간도 단축됩니다.

③ "새로운 길 찾기" (Probabilistic Edge Selection - PES)

기존 도서관은 책과 책 사이의 연결고리 (길) 가 너무 좁아, 특정 책에 도달하지 못하는 경우가 있었습니다.

  • PAG는 "이 길은 좁지만, 저쪽에서 발견된 다른 책들이 이 책과 비슷할 수도 있겠다"라고 확률적으로 새로운 길을 찾아 연결해 줍니다.
  • 이렇게 도서관의 길 (그래프) 을 더 촘촘하게 만들어서, 어떤 책을 찾아도 빠르고 정확하게 도달할 수 있게 합니다.

3. PAG 가 가져온 변화 (결과)

이 새로운 시스템 (PAG) 을 적용한 결과, 다음과 같은 놀라운 변화가 일어났습니다.

  • 🚀 속도의 폭풍: 기존 최고 성능 기술 (HNSW) 보다 최대 5 배 더 빠릅니다. 손님이 요청하면 찰나에 답을 줍니다.
  • 🏗️ 빠른 건축: 도서관을 짓는 시간 (인덱스 생성) 도 훨씬 빠릅니다. 즉시 배포가 가능합니다.
  • 💾 작은 공간: 책장을 차지하는 공간이 적어서 메모리 부담이 줄었습니다.
  • 🔄 유연한 적응: 찾는 책의 수가 10 권이든 1,000 권이든, 책의 종류가 텍스트든 이미지든 상관없이 똑같이 잘 작동합니다.
  • 📝 실시간 업데이트: 새로운 책이 들어와도 도서관을 다시 짓지 않고, 바로 그 자리에 끼워 넣을 수 있습니다 (온라인 삽입).

4. 요약: 왜 이것이 중요한가?

지금의 AI 는 매일 새로운 경험과 데이터를 학습하며 스스로 진화하고 있습니다. (예: 챗봇이 새로운 정보를 배우거나, 추천 시스템이 사용자의 취향을 실시간으로 파악하는 것).

이런 살아 움직이는 AI에게는 "정확하지만 느린" 도서관이나 "빠르지만 엉뚱한" 도서관은 쓸모가 없습니다. PAG"빠르고, 정확하며, 유연하고, 실시간으로 업데이트 가능한" 완벽한 도서관 사서를 만들어낸 것입니다.

이 기술은 앞으로 우리가 사용하는 모든 AI 서비스 (검색, 추천, 대화형 AI 등) 가 더 빠르고 똑똑하게 작동하는 데 핵심이 될 것입니다.