Enhancing Lexicon-Based Text Embeddings with Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt met miljarden boeken. Je wilt een slimme bibliothecaris die elk boek in één oogopslag kan begrijpen en direct kan vertellen welke andere boeken erover gaan.

Vroeger deden we dit met dichte embeddings (dense embeddings). Dit is alsof de bibliothecaris elke tekst omzet in een heel kort, cryptisch getal (een vector) van bijvoorbeeld 4000 cijfers. Het is compact en snel, maar het is een "black box": je ziet niet waarom hij bepaalde boeken koppelt. Het is alsof hij fluistert: "Ik weet het gewoon."

Aan de andere kant hadden we lexicon-based embeddings. Dit is alsof de bibliothecaris een lijst maakt van alle woorden die in een tekst voorkomen, met een gewicht erbij. "Dit boek gaat voor 80% over 'hond' en 20% over 'rennen'." Dit is transparant, maar vaak rommelig en traag.

Het probleem met de moderne "Super-Bibliothecarissen" (LLMs)
De nieuwste AI-modellen (Large Language Models of LLMs) zijn ontzettend slim, maar ze hebben een rare manier van lezen.

Ze knippen woorden kapot: In plaats van het woord "onderwijs" te zien, ziet de AI het als "onder" en "wijs". Of "wat" wordt gezien als " wat" (met een spatie) en "Wat" (met een hoofdletter) als twee totaal verschillende woorden. Dit maakt het zoeken naar betekenissen verwarrend.
Ze lezen maar één kant op: Ze lezen een zin van links naar rechts, maar kijken niet terug. Ze weten niet wat er na een woord komt, wat hun begrip beperkt.

De oplossing: LENS (Lexicon-based Embeddings with LLMs)
De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd LENS. Ze hebben de slimme AI gebruikt om de rommelige woordenlijst op te ruimen en een heldere bril op te zetten.

Hier is hoe het werkt, in drie simpele stappen:

1. De "Woord-Clubs" (Clustering)

Stel je voor dat de AI een enorme lijst heeft met 32.000 verschillende "woorden", maar veel daarvan betekenen eigenlijk hetzelfde.

"Hond", "hond", "HOND" en "hondje" staan allemaal apart.
LENS pakt al deze varianten en stopt ze in één club (een cluster).
In plaats van 32.000 verschillende vakjes, maken we er 4.000 of 8.000 sterke clubs van.
Het resultaat: De AI ziet nu niet meer "onder" en "wijs" als twee losse dingen, maar ziet ze als één groep: "onderwijs". Dit maakt de zoekopdracht veel scherpere en minder ruis.

2. De "Twee-Ogen" Techniek (Bidirectional Attention)

Omdat de AI normaal gesproken alleen vooruit kijkt, hebben de onderzoekers haar een nieuwe bril gegeven. Ze hebben de AI zo getraind dat ze terug kan kijken terwijl ze leest.

Net als jij een zin leest en denkt: "Oh, dit woord hier betekent iets anders omdat het woord daarna zo klinkt."
Hierdoor begrijpt de AI de context veel beter dan de oude methoden.

3. De "Magische Schaar" (Pruning)

Een groot voordeel van LENS is dat het heel efficiënt is.

Stel je hebt een tekst die 4000 woorden bevat. LENS maakt een lijst van 4000 gewichten.
Maar vaak zijn er maar 256 van die woorden echt belangrijk.
LENS kan die 256 belangrijkste woorden eruit plukken en de rest weggooien, zonder dat je de AI opnieuw hoeft te trainen. Het is alsof je een foto hebt en je knipt er gewoon de belangrijkste details uit; de rest is ruis.

Waarom is dit geweldig?

Transparantie: Je kunt precies zien welke woorden de AI belangrijk vond. Het is geen magie meer, het is een duidelijke lijst.
Snelheid: Door de "clubs" te maken en de ruis weg te halen, werkt het net zo snel als de oude, cryptische methoden.
Kracht: Als je LENS combineert met de oude "dichte" methoden (de black box), krijg je het allerbeste van twee werelden. Het resultaat is de snelste en slimste bibliothecaris die we tot nu toe hebben, die zelfs beter presteert dan de huidige wereldkampioenen op het gebied van zoeken.

Kortom:
LENS neemt de slimme, maar soms verwarde, moderne AI en geeft haar een goed georganiseerd woordenboek en een betere manier van kijken. Het resultaat is een zoekmachine die niet alleen slim is, maar ook weet waarom ze iets vindt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel recente Large Language Models (LLMs) uitstekende prestaties leveren bij het genereren van dichte embeddings (dense embeddings), blijven lexicon-gebaseerde embeddings (lexicon-based embeddings) onderbelicht, ondanks hun voordelen in transparantie en interpretatie. De auteurs identificeren twee fundamentele problemen bij het toepassen van bestaande lexicon-gebaseerde methoden op moderne LLMs:

Token-redundantie en ruis: LLM-tokenizers (vaak subword-based) splitsen woorden op in fragmenten (bijv. "education" $\rightarrow$ "edu", "cation") en behandelen variaties in hoofdletters of spaties als unieke tokens (bijv. "what", "What", " what"). Dit leidt tot een versnipperde vocabulaire-ruimte en inconsistenties bij het matchen van termen, wat de prestaties van lexicon-embeddings aanzienlijk vermindert.
Beperkte context door unidirectionele aandacht: De meeste decoder-only LLMs gebruiken tijdens het pre-training alleen unidirectionele attention (tokens kijken alleen naar voorgaande tokens). Voor lexicon-embeddings, die gebaseerd zijn op de output van alle tokens, is volledige contextvisibiliteit echter cruciaal. Bestaande methoden die proberen dit op te lossen via prompts (zoals PromptReps) presteren aanzienlijk slechter dan dichte embeddings.

Methodologie: LENS Framework

De auteurs introduceren LENS (Lexicon-based Embeddings from LLMs), een framework dat LLMs optimaliseert voor het genereren van lexicon-embeddings door de architectuur direct aan te passen in plaats van te vertrouwen op externe prompts.

Kerncomponenten:

Token-Clustering (Vocabulaire Consolidatie):
- Om redundantie te verminderen, worden de originele token-embeddings van de taalmodel-head (LM-head) gegroepeerd via K-means clustering.
- Semantisch vergelijkbare tokens (bijv. "rapid", "quickly", "swift") worden samengevoegd in één cluster.
- De centroid van elk cluster vervangt de originele token-embeddings. De output van het model wordt nu een vector van cluster-scores in plaats van een vector van de volledige, grote vocabulaire. Dit verkleint de dimensie aanzienlijk (bijv. van 32.000+ naar 4.000 of 8.000) en creëert een meer coherente representatie.
Bidirectionele Aandacht:
- In tegenstelling tot eerdere studies die beweerden dat de originele unidirectionele architectuur het beste is voor dichte embeddings, tonen de auteurs aan dat bidirectionele attention essentieel is voor lexicon-embeddings.
- Tijdens het fine-tunen wordt de attention-mechanisme aangepast zodat elke token rekening houdt met de volledige context (voor en na), wat de kwaliteit van de token-representaties verbetert.
Pooling Strategie:
- De auteurs onderzoeken verschillende pooling-methoden (last-token, sum, max) en concluderen dat max-pooling over de sequentie de beste resultaten oplevert voor lexicon-embeddings.
Training:
- Het model wordt getraind met een eenvoudige, single-stage pipeline (geen complexe twee-staps processen of synthetische data) op openbare data, gebruikmakend van de InfoNCE loss (contrastive learning) en distillatie van een reranker.

Belangrijkste Bijdragen

Eerste LLM-gebaseerde lexicon-embeddings: LENS is het eerste framework dat LLMs succesvol gebruikt voor lexicon-embeddings die concurreren met dichte embeddings op diverse taken.
Architecturale Innovatie: Het bewijst dat het aanpassen van de interne architectuur (clustering + bidirectionele attention) superieur is aan externe prompt-engineering.
Natuurlijke Sparsiteit: LENS ondersteunt efficiënte Top-K pruning zonder speciale trainingsdoelen (zoals Matryoshka Representation Learning). Omdat elke dimensie een specifiek lexicon-cluster vertegenwoordigt, kunnen de laagst actieve dimensies tijdens inferentie worden verwijderd met minimale prestatieverlies.
Hybride Benadering: Het combineren van LENS met dichte embeddings resulteert in state-of-the-art prestaties.

Resultaten

De auteurs evalueren LENS op de MTEB (Massive Text Embedding Benchmark) en AIR-Bench.

MTEB Prestaties:
- LENS-8000 (8.000 clusters) bereikt de hoogste gemiddelde prestatie onder modellen die uitsluitend op publieke data zijn getraind.
- Het presteert beter dan de dichte tegenhanger BGE-en-ICL (getraind met dezelfde data en hyperparameters) op 6 van de 7 taakcategorieën.
- Het presteert vergelijkbaar met of beter dan geavanceerde modellen zoals NV-Embed-v2 (dat een veel complexere trainingspipeline gebruikt) op specifieke taken.
Retrieval (BEIR):
- Op het retrieval-subset van MTEB (BEIR) presteert LENS-8000 sterk (61.86).
- Hybride Resultaat: Door LENS-8000 te combineren met BGE-en-ICL, wordt een State-of-the-Art (SOTA) score van 63.00 bereikt, wat hoger is dan alle individuele modellen.
Efficiëntie:
- Door Top-K pruning (bijv. behoud van slechts de top 256 van de 4000 dimensies) blijft de prestatie hoog, wat LENS zeer geschikt maakt voor schaalbare applicaties.
Kwalitatieve Analyse:
- De clusters tonen een diep semantisch begrip (bijv. "oxygen" als antwoord op "hypoxia") en groeperen correct synoniemen en morfologische varianten.

Betekenis en Conclusie

Dit paper is significant omdat het de dominantie van dichte embeddings uitdaagt en aantoont dat lexicon-gebaseerde embeddings, wanneer ze correct worden geoptimaliseerd met LLM-architectuur, concurrerend kunnen zijn in prestatie, maar superieur in transparantie en interpretatie.

Transparantie: In tegenstelling tot dichte embeddings, waar dimensies abstract zijn, kan bij LENS elke dimensie direct worden gekoppeld aan een specifiek woord of concept (cluster), wat inzicht geeft in waarom een document wordt geselecteerd.
Toekomstperspectief: Hoewel LENS momenteel beperkt is tot het Engels en de Mistral-7B architectuur, opent het een nieuwe richting voor het gebruik van LLMs voor interpreteerbare, lexicon-gebaseerde representaties die goed werken in combinatie met dichte methoden.

Samenvattend biedt LENS een eenvoudige maar krachtige oplossing voor de redundantie en contextbeperkingen van LLMs, waardoor lexicon-embeddings weer een competitieve rol kunnen spelen in moderne NLP-toepassingen.

Enhancing Lexicon-Based Text Embeddings with Large Language Models

1. De "Woord-Clubs" (Clustering)

2. De "Twee-Ogen" Techniek (Bidirectional Attention)

3. De "Magische Schaar" (Pruning)

Probleemstelling

Methodologie: LENS Framework

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics