Probabilistic Kernel Function for Fast Angle Testing

Este artigo propõe funções de kernel probabilísticas baseadas em projeções determinísticas e ângulos de referência para testes de ângulo em espaços de alta dimensão, demonstrando superioridade teórica e experimental em relação aos métodos gaussianos e alcançando um aumento de 2,5 a 3 vezes na taxa de consultas por segundo (QPS) em comparação com o algoritmo HNSW para busca aproximada de vizinhos mais próximos.

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma biblioteca gigante com milhões de livros (os dados), e cada livro tem uma "impressão digital" feita de milhares de números (vetores de alta dimensão). Quando você procura por um livro específico, o computador precisa comparar a sua busca com todos os milhões de livros para encontrar os mais parecidos.

O problema é que, em mundos de dados complexos, fazer essa comparação exata é como tentar encontrar uma agulha em um palheiro, mas o palheiro é o tamanho de um planeta e você tem que medir cada palha com uma régua microscópica. É lento e consome muita energia.

Este artigo apresenta uma nova maneira de fazer essa busca, chamada KS1 e KS2, que é como dar um "superpoder" de intuição para o computador.

O Problema: A Busca Exata é Lenta

Normalmente, para saber se dois livros são parecidos, o computador calcula o "ângulo" entre suas impressões digitais. Se o ângulo for pequeno, eles são parecidos. Mas calcular esse ângulo exato para milhões de livros é muito caro.

Métodos antigos tentavam resolver isso usando "sorte" (projeções aleatórias baseadas em distribuições normais/Gaussianas). Era como tentar adivinhar quem é o mais parecido jogando dardos aleatórios no escuro. Funcionava, mas exigia muitos dardos e muitas tentativas para ter certeza, e a teoria por trás disso só funcionava perfeitamente se você jogasse infinitos dardos (o que é impossível na prática).

A Solução: O "Radar de Referência"

Os autores deste paper dizem: "E se, em vez de jogar dardos aleatórios, usássemos um mapa de referência inteligente?"

Eles criaram duas ferramentas principais:

  1. A Lógica do "Melhor Vizinho" (KS1):
    Imagine que você quer saber se o Livro A é mais parecido com o Livro X do que o Livro B. Em vez de medir tudo, você escolhe um "Vizinho de Referência" (um livro específico que você já conhece bem).

    • A Analogia: Pense em um teste de sabor. Em vez de provar todos os pratos do mundo para ver qual é o mais parecido com o seu favorito, você prova apenas o prato que está mais próximo do seu favorito na mesa. Se o prato do Livro A estiver mais perto desse "prato de referência" do que o do Livro B, você sabe que o A é mais parecido.
    • O Truque: Eles não usam referências aleatórias. Eles organizam as referências de forma que cubram o espaço de dados de maneira perfeita (como um favo de mel ou um poliedro), garantindo que a "referência" escolhida esteja sempre o mais perto possível de qualquer coisa que você procure. Isso elimina a necessidade de "sorte" e torna o cálculo muito mais preciso e rápido.
  2. O Filtro Rápido (KS2):
    Agora, imagine que você não quer saber qual é o mais parecido, mas apenas se um livro é "parecido o suficiente" (acima de um certo limite).

    • A Analogia: É como um segurança num clube. Em vez de verificar a identidade de cada pessoa na fila (cálculo exato), ele usa um teste rápido: "Você tem uma tatuagem específica?". Se a resposta for "provavelmente sim" (baseado em uma regra rápida), ele deixa entrar. Se for "provavelmente não", ele dispensa a pessoa sem gastar tempo.
    • O Truque: O método KS2 usa essa lógica para pular milhões de comparações desnecessárias em grafos de busca (estruturas de dados usadas para encontrar vizinhos). Ele diz: "Não precisa calcular a distância exata, esse livro definitivamente não é o que você quer".

Por que isso é revolucionário?

  • Sem "Teoria do Infinito": Os métodos antigos precisavam de uma suposição matemática de que você usaria infinitas projeções para funcionar bem. O novo método funciona perfeitamente com um número fixo e pequeno de referências, porque a estrutura delas é inteligente, não aleatória.
  • Velocidade Insana: Nos testes, o novo método (HNSW+KS2) foi 2,5 a 3 vezes mais rápido que os melhores métodos atuais (como o HNSW padrão) para encontrar os vizinhos mais próximos, mantendo a mesma precisão.
  • Economia de Espaço: Além de ser mais rápido, o índice (a lista de dados organizada) ficou um pouco menor, economizando memória.

Em resumo

Os autores criaram um sistema de navegação para dados que substitui a "sorte cega" por uma "estratégia inteligente". Em vez de tentar adivinhar quem é o mais parecido jogando moedas, eles organizaram o mundo dos dados em uma grade perfeita e usam pontos de referência estratégicos para tomar decisões rápidas e precisas.

É como trocar um mapa de papel antigo e confuso por um GPS de alta precisão que sabe exatamente por onde passar, economizando tempo e combustível (energia do computador) na sua busca por informações.