On the Theoretical Limitations of Embedding-Based Retrieval

Deze paper toont aan dat vector-embeddings fundamentele theoretische beperkingen hebben die zelfs bij realistische, eenvoudige queries leiden tot falen, omdat het aantal mogelijke zoekresultaten beperkt is door de dimensie van de embedding, wat een oproep is voor nieuwe technieken buiten het huidige paradigma.

Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee

Gepubliceerd Fri, 13 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek, vertaald naar begrijpelijk Nederlands met behulp van alledaagse analogieën.

De Kernboodschap: De "Telefoonboek"-Probleem

Stel je voor dat je een gigantisch telefoonboek hebt met miljoenen namen. Je wilt iemand vinden die een heel specifieke combinatie van eigenschappen heeft. Bijvoorbeeld: "Vind iemand die van pizza houdt, maar niet van ananas, en die ook van fietsen houdt, maar alleen op zondag."

In de wereld van computers (en zoekmachines zoals Google) gebruiken we embeddings. Dit zijn slimme nummers (vectoren) die een tekst of document vertegenwoordigen. Het idee is simpel: als twee dingen op elkaar lijken, staan hun nummers dicht bij elkaar in een virtuele ruimte.

De onderzoekers van Google DeepMind en Johns Hopkins hebben ontdekt dat deze slimme nummers een fundamenteel fysiek probleem hebben. Ze kunnen niet alles tegelijk onthouden, hoe slim ze ook zijn.

De Analogie: De Koffer en de Kleding

Stel je een koffer voor (dit is de embeddings-dimensie, oftewel hoeveel "ruimte" de computer heeft om informatie op te slaan).

  • Je hebt een kledingstuk voor elke mogelijke combinatie van zoekopdrachten (bijv. "pizza + ananas", "pizza + geen ananas", "fiets + zondag", etc.).
  • De koffer heeft een vaste grootte.

Het probleem is dat er oneindig veel kledingstukken zijn (combinaties van interesses), maar de koffer maar één vaste grootte heeft.

De onderzoekers bewijzen wiskundig dat als je te veel unieke combinaties wilt vinden, je koffer simpelweg te klein wordt. Je kunt niet alle mogelijke kledingstukken in die ene koffer proppen zonder dat ze elkaar verpletteren.

  • Huidige situatie: We hebben koffers van 1024 of 4096 vakjes. Dat is groot, maar niet groot genoeg voor alle mogelijke vragen die een mens kan bedenken.
  • Het gevolg: Als je een vraag stelt die een specifieke, zeldzame combinatie van dingen vraagt, zal de computer falen. Hij kan die specifieke "kledingstuk" niet vinden omdat het niet in de koffer past.

Wat hebben ze gedaan? (Het "LIMIT"-Experiment)

Om dit te bewijzen, maakten ze een heel simpel spelletje, genaamd LIMIT.

  1. Het Spel: Ze maakten een lijst met 50.000 mensen. Elke persoon houdt van een paar dingen (bijv. "Jon houdt van Quokkas en Appels", "Ovid houdt van Quokkas en Konijnen").
  2. De Vraag: Ze stelden heel simpele vragen: "Wie houdt van Quokkas?" of "Wie houdt van Appels?"
  3. De Twist: Ze maakten een vraag voor elke mogelijke combinatie van twee mensen. Als je 46 mensen hebt, zijn er duizenden mogelijke combinaties van "wie houdt van wat".

Het Resultaat:
Zelfs de allerbeste, slimste AI-modellen van vandaag (zoals die van Google, Snowflake en Qwen) faalden hierop. Ze konden de juiste mensen niet vinden, zelfs niet als de vragen zo simpel waren als "Wie houdt van appels?".

Het was alsof je een supercomputer vraagt om een telefoonboek te raadplegen, maar de computer vergeet telkens de naam van de persoon die je zoekt, omdat de lijst te lang is voor zijn geheugen.

Waarom is dit belangrijk?

Vroeger dachten we: "Als we maar genoeg data verzamelen en de modellen groter maken, kunnen ze alles doen."

Dit papier zegt: Nee. Het is niet alleen een kwestie van meer data of slimmere training. Het is een wiskundige muur.

  • Als je vraagt om een combinatie van dingen die nog nooit eerder samen zijn gevraagd (bijvoorbeeld: "Vind artikelen over klimaatverandering die ook gaan over de prijs van koffie en die geschreven zijn in 1995"), kan een standaard zoekmachine dit nooit perfect doen.
  • De "ruimte" in de computer is simpelweg te klein om elke denkbare combinatie van relevantie op te slaan.

Wat betekent dit voor de toekomst?

De auteurs zeggen dat we moeten stoppen met het denken dat één groot getal (één embedding) alles kan oplossen. We moeten nieuwe manieren vinden om te zoeken:

  • Meerdere vectoren: In plaats van één getal per document, misschien wel tien of twintig (zoals een dossier met veel losse pagina's in plaats van één samenvatting).
  • Slimmer zoeken: Systemen die eerst een ruwe lijst maken en dan heel nauwkeurig gaan kijken (zoals een mens die eerst een lijst doorbladert en dan de juiste pagina zoekt).

Samenvatting in één zin

Zoekmachines die werken met één "slim getal" per document, lopen tegen een muur aan: ze kunnen niet alle mogelijke combinaties van vragen en antwoorden tegelijk onthouden, hoe slim ze ook zijn, omdat hun "geheugenruimte" wiskundig te klein is.