Probabilistic Kernel Function for Fast Angle Testing

Diese Arbeit stellt zwei deterministische, projektionsbasierte Wahrscheinlichkeits-Kernfunktionen zur effizienten Winkeltests vor, die ohne asymptotische Annahmen auskommen und in der Annäherungssuche nach nächsten Nachbarn (ANNS) eine 2,5- bis 3-fach höhere Durchsatzrate als der HNSW-Algorithmus erreichen.

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Die Nadel im Heuhaufen finden

Stell dir vor, du hast eine riesige Bibliothek mit Millionen von Büchern (Datenpunkten). Jedes Buch hat einen „Gedanken" (einen Vektor), der beschreibt, worum es geht. Wenn du ein neues Buch hast und wissen willst: „Welche Bücher in dieser riesigen Bibliothek sind mir am ähnlichsten?", musst du normalerweise jeden einzelnen Gedanken mit deinem neuen Gedanken vergleichen.

In einer kleinen Bibliothek ist das kein Problem. Aber in einer mit Millionen Büchern? Das dauert ewig. Es ist wie der Versuch, die beste Nadel in einem riesigen Heuhaufen zu finden, indem du jeden einzelnen Halm einzeln untersuchst. Das ist zu langsam für moderne Anwendungen wie Empfehlungssysteme oder KI-Chats.

Die alte Lösung: Der zufällige Würfelwurf

Bisher haben Forscher eine clevere Methode benutzt, um das Problem zu umgehen: Sie haben einen „Zufalls-Würfel" benutzt. Stell dir vor, du wirfst viele zufällige Scherben (Projektionsvektoren) in den Heuhaufen. Wenn eine Scherbe sowohl dein neues Buch als auch ein ähnliches altes Buch trifft, dann sind sie wahrscheinlich ähnlich.

Das Problem dabei: Diese Scherben wurden völlig zufällig (wie aus einer Glockenkurve) geworfen. Um sicherzugehen, dass man die richtige Nadel findet, musste man unendlich viele Scherben werfen. In der Praxis kann man das nicht, also musste man mit weniger auskommen, was manchmal zu Fehlern führte oder die Suche trotzdem noch zu langsam machte.

Die neue Lösung: Ein geplanter Kompass

Die Autoren dieses Papers sagen: „Warte mal, wir brauchen keinen zufälligen Würfelwurf. Wir brauchen einen geplanten Kompass."

Statt zufällige Scherben zu werfen, bauen sie eine perfekte Struktur aus Projektionsvektoren. Stell dir das wie ein Rad mit Speichen vor, das so perfekt angeordnet ist, dass es keine Lücken gibt.

Hier sind die zwei genialen Tricks, die sie benutzt haben:

  1. Der Referenz-Winkel (Der Kompass-Nordpol):
    Bei der alten Methode war der „Nordpol" (der beste Vergleichspunkt) zufällig. Bei der neuen Methode wählen sie einen festen Punkt, der garantiert so nah wie möglich an deinem Suchobjekt liegt. Sie nennen das den „Referenzwinkel". Je kleiner dieser Winkel ist, desto genauer ist die Vorhersage. Es ist, als würdest du nicht raten, wo der Nordpol ist, sondern ihn mit einem Laserpointer exakt auf die Nadel richten.

  2. Die perfekte Anordnung (Das Kreuz-Polytop):
    Statt zufällige Punkte zu setzen, ordnen sie ihre „Scherben" wie die Ecken eines perfekten geometrischen Körpers an (ein Kreuz-Polytop). Stell dir vor, du hast einen Würfel, aber statt nur 6 Ecken hast du viele mehr, die den Raum gleichmäßig ausfüllen. Dadurch wird die Wahrscheinlichkeit, dass du die richtige Nadel triffst, viel höher, ohne dass du mehr Scherben werfen musst.

Was bringt das in der Praxis?

Die Forscher haben zwei neue Werkzeuge entwickelt:

  • KS1 (Der schnelle Vergleich): Dies hilft, ähnliche Dinge schneller zu finden, ohne alles genau nachzumessen. Es ist wie ein Filter, der sofort sagt: „Hey, dieses Buch ist definitiv ähnlich, wirf es in den Korb!"
  • KS2 (Der Wegweiser im Labyrinth): Dies wird in Graphen (Netzwerken) benutzt, um den schnellsten Weg zu den besten Ergebnissen zu finden. Anstatt jeden Pfad im Labyrinth zu testen, sagt KS2: „Geh diesen Weg, er führt sicher zum Ziel."

Das Ergebnis: Ein Turbo für KI

Das Ergebnis ist beeindruckend:

  • Geschwindigkeit: Ihr System ist 2,5- bis 3-mal schneller als die aktuell besten Systeme (wie HNSW), die heute in vielen Apps verwendet werden.
  • Genauigkeit: Es macht weniger Fehler als die alten Methoden.
  • Platz: Es braucht sogar weniger Speicherplatz.

Zusammenfassend:
Statt blindlings durch einen Heuhaufen zu wühlen und dabei auf Zufall zu hoffen, haben die Autoren eine perfekte Landkarte erstellt. Sie wissen genau, wo sie suchen müssen, und können so die besten Ergebnisse in einem Bruchteil der Zeit finden. Das ist ein großer Schritt für schnellere KI und bessere Suchmaschinen.