Why Large Language Models can Secretly Outperform Embedding Similarity in Information Retrieval

Hoewel het onderzoek concludeert dat LLM-gebaseerde relevantieoordelen het potentieel hebben om de beperkingen van embedding-achtige systemen te overwinnen door kortzichtigheid te doorbreken, kan dit voordeel niet worden aangetoond met standaard annotatiegegevens omdat deze zelf ook last hebben van dezelfde kortzichtigheid.

Matei Benescu, Ivo Pascal de Jong

Gepubliceerd Tue, 10 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek in simpel Nederlands, met behulp van alledaagse vergelijkingen.

De Kernboodschap: Waarom slimme zoekmachines soms "dom" lijken

Stel je voor dat je op zoek bent naar een specifiek antwoord op een vraag, bijvoorbeeld: "Wat is het verschil tussen een McDouble en een Double Cheeseburger?"

In de wereld van zoekmachines zijn er twee manieren om te zoeken:

  1. De "Woordenlijst"-methode (Embedding Similarity / NERS):
    Dit is de huidige standaard. De computer kijkt naar de woorden in je vraag en zoekt documenten die dezelfde woorden bevatten. Het is alsof je een zoektocht doet met een woordenboek: als je "McDouble" typt, zoekt de computer naar teksten met "McDouble".

    • Het probleem: Als het antwoord in de tekst staat als "Eén plakje kaas in plaats van twee", dan ziet de computer geen overlap. Voor de computer zijn de vraag en het antwoord totaal verschillend, ook al is het antwoord perfect. De computer is hier kortzichtig; hij ziet alleen de oppervlakte, niet de betekenis.
  2. De "Slimme Assistent"-methode (LLM-RJS):
    Dit is de nieuwe methode met Large Language Models (zoals de AI waar dit artikel over gaat). Deze AI leest je vraag én het antwoord, en denkt na: "Ah, dit antwoord beschrijft precies het verschil, ook al gebruiken ze andere woorden."

    • De kracht: De AI kan redeneren. Hij begrijpt dat "één plakje kaas" het antwoord is op "wat is het verschil".

Wat hebben de onderzoekers ontdekt?

De onderzoekers van de Universiteit van Groningen wilden weten: "Is de slimme assistent (LLM) echt beter dan de woordenlijst-method (NERS)?"

Ze hebben een grote test gedaan met duizenden vragen en antwoorden. Het resultaat was verrassend en een beetje frustrerend:

  • De testresultaten: De slimme assistent deed het niet beter dan de oude woordenlijst-methode volgens de standaard cijfers.
  • Waarom? Hier komt de echte ontdekking. De reden dat de slimme assistent niet "wint", is niet omdat hij dom is, maar omdat de mensen die de antwoorden hebben gecontroleerd, ook kortzichtig waren.

De Grootste Ontdekking: De Menselijke Blinde Vlek

Stel je voor dat je een proef doet waarbij een robot en een mens moeten raden welk antwoord goed is. De robot zegt: "Dit antwoord is perfect!" De mens zegt: "Nee, dit is fout, want de woorden komen niet overeen."

In dit onderzoek bleek dat de menselijke beoordelaars (die de "waarheid" bepaalden voor de test) vaak dezelfde fout maakten als de oude zoekmachine. Ze keken alleen naar de woorden, niet naar de betekenis.

  • Voorbeeld: Bij de vraag over de McDouble gaven de mensen een score van 0 (niet relevant) omdat de tekst niet het woord "McDouble" herhaalde. De slimme AI gaf een score van 3 (perfect relevant) omdat hij het verschil begreep.
  • De conclusie: De AI had gelijk, maar de testmaten (de menselijke scores) zeiden dat de AI "fout" zat. De AI werd dus gestraft voor het vinden van iets dat de mensen over het hoofd zagen.

Een Leuke Analogie: De Zoektocht naar de Sleutel

Stel je voor dat je je sleutel kwijt bent.

  • De oude methode (NERS) is als iemand die alleen kijkt naar objecten die op een sleutel lijken (een metalen ring, een gat). Als je sleutel in een rare vorm is, ziet hij hem niet.
  • De nieuwe methode (LLM) is als een detective die begrijpt waar je de sleutel zou kunnen hebben laten vallen, zelfs als hij er niet uitziet als een sleutel.
  • Het probleem: De "rechter" (de menselijke beoordelaar) die moet zeggen wie de winnaar is, kijkt ook alleen naar de vorm. Als de detective een sleutel vindt die er niet uitziet als een sleutel, zegt de rechter: "Fout! Dat is geen sleutel."

De onderzoekers zeggen eigenlijk: "De detective is slimmer dan de rechter, maar omdat de rechter dom is, denken we dat de detective slecht is."

Wat betekent dit voor de toekomst?

  1. De slimme AI is beter: De nieuwe modellen kunnen echt begrijpen wat relevant is, zelfs als de woorden niet overeenkomen. Ze kunnen de "kortzichtigheid" van de oude systemen oplossen.
  2. Maar we meten het verkeerd: Omdat we de resultaten vergelijken met oude, menselijke tests (die ook kortzichtig zijn), zien we niet dat de AI wint. Het is alsof je een Formule 1-auto test op een fietspad en zegt: "Deze auto is niet sneller dan een fiets, want hij kan niet over de stoeprand."
  3. De oplossing: We moeten onze tests (de menselijke beoordelingen) opnieuw doen, zodat we de echte slimme antwoorden van de AI ook echt waarderen.

Kort samengevat:
De nieuwe AI is niet dom, hij is juist heel slim en kan dingen begrijpen die oude systemen en zelfs sommige mensen over het hoofd zien. Maar omdat we hem testen met oude, "kortzichtige" regels, lijkt het alsof hij niet beter is. We moeten onze meetlat aanpassen om de echte kracht van deze technologie te zien.