Probabilistic Kernel Function for Fast Angle Testing

이 논문은 고차원 유클리드 공간에서 각도 비교 및 임계값 판정을 위한 새로운 확률적 커널 함수를 제안하여, 기존 가우시안 분포 기반 접근법보다 이론적·실험적으로 우수하며 HNSW 대비 2.5~3 배 높은 처리량을 달성하는 근사 최인접 이웃 검색 (ANNS) 성능을 입증합니다.

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌍 배경: 거대한 도서관에서의 '찾기' 게임

생각해 보세요. 전 세계 모든 책 (데이터) 이 있는 거대한 도서관이 있다고 칩시다. 그리고 당신이 "내 취향과 가장 비슷한 책" (쿼리) 을 찾고 싶다고 가정해 봅시다.

  • 문제: 책이 너무 많고 (수백만 권), 책의 내용 (데이터) 이 너무 복잡해서 (고차원) 한 번에 모든 책을 비교해 보는 것은 불가능합니다.
  • 기존 방법 (HNSW 등): 도서관 사서가 "이 책과 저 책이 비슷할 것 같아"라고 추측하며 빠르게 찾아주는 방식입니다. 하지만 사서가 모든 책을 다 볼 수는 없으니, 가끔은 "아, 이건 아니야"라고 넘겨야 할 때도 있습니다. 이때 **정확한 비교 (각도 계산)**를 하려면 시간이 너무 오래 걸립니다.

💡 이 논문의 핵심 아이디어: "예측 가능한 나침반"

이 연구팀은 **"정확한 계산을 하지 않고도, '어느 것이 더 비슷한지'를 확률적으로 빠르게 판단하는 새로운 나침반"**을 만들었습니다.

기존의 나침반 (Gaussian 분포 기반) 은 무작위로 바람을 불어 방향을 잡는 방식이라, 정확한 방향을 찾기 위해 바람을 수천 번 불어야 (계산을 반복해야) 했습니다. 하지만 이 논문은 **"참고할 기준점 (Reference Angle)"**을 미리 정해두고, 그 기준점을 이용해 훨씬 더 정교하고 빠르게 방향을 잡는 방식을 제안합니다.

1. 두 가지 새로운 도구 (Kernel Functions)

이 논문은 두 가지 상황에 맞는 두 가지 도구를 개발했습니다.

  • 도구 A (비교용): "책 A 와 책 B 중, 내 취향에 더 가까운 건?"을 판단할 때 사용합니다.
    • 비유: 두 책의 표지를 빠르게 스캔해서, "A 책이 B 책보다 내 취향에 더 가깝다"고 99% 확신하며 말해주는 것입니다.
  • 도구 B (문지기용): "이 책이 내 기준 (임계값) 을 넘어서는 진짜 좋은 책인가?"를 판단할 때 사용합니다.
    • 비유: 도서관 입구에서 "이 책은 내 기준보다 훨씬 못하니까 들어오지 마"라고 문지기 (문) 가 빠르게 걸러주는 역할을 합니다.

2. 기존 방식과의 차이점 (왜 더 좋은가?)

  • 기존 방식 (무작위 바람): 무작위로 바람을 불어 방향을 잡으려다 보니, 정확한 방향을 잡으려면 많은 시도 (계산) 가 필요했습니다.
  • 새로운 방식 (구조화된 나침반): 미리 정해진 **정교한 구조 (대칭적인 점들의 배치)**를 사용합니다. 마치 무작위로 흩어진 나침반 바늘 대신, 구슬을 정교하게 배열한 나침반처럼 설계했습니다.
    • 결과: 같은 정확도를 유지하면서, 계산 속도가 2.5 배에서 3 배까지 빨라졌습니다.

🚀 실제 효과: HNSW 와의 대결

이 새로운 도구를 가장 유명한 검색 알고리즘인 HNSW에 적용해 보았습니다.

  • 결과: 기존 HNSW 보다 초당 처리량 (QPS) 이 2.5~3 배 증가했습니다.
    • 비유: 기존에는 1 분에 100 개의 책을 찾아주던 사서가, 이 기술을 쓰면 1 분에 300 개의 책을 찾아주면서도 실수는 거의 줄었습니다.
  • 저장 공간: 오히려 필요한 저장 공간은 5% 정도 줄었습니다. (더 적은 메모리로 더 빠른 검색!)

🎯 요약: 이 연구가 왜 중요한가?

  1. 빠른 검색: 고차원 데이터 (이미지, 텍스트, 추천 시스템 등) 를 찾을 때 속도가 비약적으로 빨라졌습니다.
  2. 정확한 예측: 무작위성을 줄이고 구조화된 방식을 도입해, "거짓말 (오류)"을 줄이고 정확한 판단을 내립니다.
  3. 실용성: 이론적으로만 존재하던 것이 아니라, 실제로 코드와 데이터를 공개하여 누구나 사용할 수 있게 했습니다.

한 줄 요약:

"이 연구는 거대한 데이터 속에서 비슷한 것을 찾을 때, 무작위로 헤매는 대신 정교하게 설계된 나침반을 써서 속도를 3 배나 높이고 정확도도 유지한 혁신적인 방법입니다."

이 기술은 AI 추천 시스템, 이미지 검색, 그리고 우리가 매일 사용하는 검색 엔진의 속도를 더 빠르게 만드는 데 큰 역할을 할 것으로 기대됩니다.