RETLLM: Training and Data-Free MLLMs for Multimodal Information Retrieval

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek binnenstapt, maar dan niet alleen met boeken, maar ook met duizenden foto's, video's en tekeningen. Je wilt iets specifieks vinden, bijvoorbeeld: "Een foto van een hond die een pizza eet, maar dan in een ruimte met neonverlichting."

In het verleden waren computersystemen om dit te vinden vaak als twee gescheiden bibliothecarissen: één die alleen naar tekst keek en één die alleen naar plaatjes keek. Ze werkten niet goed samen, en als je vraag te complex was, raakten ze de draad kwijt. Om ze slimmer te maken, moesten ze eerst maandenlang "leren" door duizenden voorbeelden te zien. Dat kostte veel tijd, geld en rekenkracht.

Deze paper introduceert RetLLM, een nieuwe manier om te zoeken die geen training nodig heeft. Het is alsof je een superintelligente, alleswetende bibliothecaris (een zogenaamde Multimodal Large Language Model of MLLM) binnenhaalt die al alles weet en direct aan het werk kan.

Hier is hoe RetLLM werkt, uitgelegd met een paar creatieve analogieën:

1. De "Grof- dan Fijn" Strategie (De Vismolen)

Stel je voor dat je in een grote vijver vis wilt vangen.

De oude manier: Je zou elke vis in de vijver één voor één uit de water halen, bekijken en vragen: "Ben jij de vis die ik zoek?" Dit duurt eeuwen.
RetLLM's manier:
- Stap 1 (Grof): Je gebruikt eerst een simpele, snelle vismolen (een klein computertje) die alleen op de vorm van de vis let. Hij haalt alleen de 5 of 10 vissen uit de vijver die het meest op jouw doel lijken. De rest van de vijver laat hij met rust. Dit bespaart enorm veel tijd.
- Stap 2 (Fijn): Nu geeft hij die 10 vissen aan de super-bibliothecaris. Deze kijkt heel nauwkeurig naar de details: "Heeft deze vis echt een pizza in zijn bek? Is de achtergrond wel echt neon?" De bibliothecaris geeft een score: "Ja, deze is 95% zeker de juiste."

Door deze combinatie is het systeem snel (want hij hoeft niet alles te checken) én extreem nauwkeurig (want de slimme bibliothecaris doet het lastige werk).

2. Het "Gezichtsverlies" Probleem (De Visual Enhancement)

Soms gebeurt het met die super-bibliothecaris dat hij, terwijl hij zo hard nadenkt, even de foto vergeet waar hij naar keek. Hij begint te fantaseren (in het vakjargon: hallucineren). Hij zegt misschien: "Oh, ik zie een hond," terwijl er op de foto een kat staat, omdat hij zijn geheugen even kwijtraakte.

RetLLM lost dit op met een trucje genaamd Visual Enhancement.

De Analogie: Stel je voor dat de bibliothecaris een bril opzet die hem dwingt om telkens weer naar de originele foto te kijken terwijl hij praat. In plaats van alleen te vertrouwen op wat hij in zijn hoofd heeft, wordt de foto als een "bewijsstuk" herhaaldelijk in zijn werkruimte gegooid. Hierdoor vergeet hij de visuele details niet en blijft hij eerlijk tegenover wat hij echt ziet.

3. De "Twijfel-Check" (Entropy-based Decision)

Stel dat de bibliothecaris twee vissen heeft gevonden die er allebei perfect uitzien. Hij zegt: "Beide zijn 100% de juiste." Wie moet je dan kiezen?

De oplossing: RetLLM vraagt de bibliothecaris niet alleen om een antwoord, maar ook om zijn zelfvertrouwen te meten.
De Analogie: Het is alsof je vraagt: "Hoe zeker ben je dat dit de juiste vis is?" Als hij twijfelt (hoge "onzekerheid" of entropy), kijkt hij nog eens extra goed. Als hij heel zeker is (lage onzekerheid), kiest hij die. Dit helpt om de juiste keuze te maken zelfs als de opties heel erg op elkaar lijken.

Waarom is dit belangrijk?

Geen schooltijd nodig: Je hoeft het systeem niet maandenlang te laten studeren. Het werkt direct, net zo goed als systemen die wel hebben geleerd.
Schaalbaar: Als er in de toekomst nog slimmere bibliothecarissen worden uitgevonden, werkt RetLLM daar direct mee samen zonder dat je iets hoeft aan te passen.
Flexibel: Het kan zoeken op tekst, op plaatjes, of op een mix van beide (bijvoorbeeld: "Toon me een foto die past bij dit gedicht").

Kortom: RetLLM is als het inhuren van een slimme, ervaren detective die direct aan het werk gaat, die nooit zijn notitieboekje (de foto's) vergeet, en die slimme trucs gebruikt om uit de duizenden opties de échte winnaar te kiezen, zonder dat je eerst een dure trainingssessie hoeft te betalen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Multimodale informatieretrieval (MMIR) systemen moeten zoeken over verschillende modaliteiten (tekst, afbeeldingen, of een combinatie daarvan) om relevante informatie te vinden. Hoewel recente doorbraken in Multimodale Grootte Taalmodellen (MLLMs) de prestaties hebben verbeterd via contrastief fijnafstemmen (fine-tuning), lijden deze benaderingen onder twee belangrijke beperkingen:

Doelwit-misalignering: Er is een inconsistentie tussen de autoregressieve pre-training van MLLMs en de contrastieve fijnafstemming die voor retrieval wordt gebruikt. Dit kan de inherente multimodale redeneercapaciteiten van het model ondermijnen.
Schalingsproblemen: Bestaande methoden vereisen enorme datasets voor training, wat leidt tot hoge kosten voor datacollectie en rekenkracht, waardoor praktische toepassingen beperkt blijven.

Het paper introduceert RetLLM, een raamwerk dat MMIR mogelijk maakt zonder training en zonder extra data, puur door gebruik te maken van de zero-shot capaciteiten van bestaande MLLMs.

Methodologie

RetLLM reformuleert de retrieval-taak als een similarity score generatie taak. In plaats van embeddings te berekenen in een gedeelde ruimte, vraagt het model direct een numerieke score voor de gelijkenis tussen een query en een kandidaat. Het raamwerk volgt een ruw-naar-fijn (coarse-then-fine) pijplijn:

Ruwe Selectie (Coarse Stage):
- Om de hoge rekentijd van het direct afvragen van een MLLM voor alle $N$ kandidaten te vermijden, wordt eerst een lichte, op embedding gebaseerde model (bijv. CLIP) gebruikt.
- Dit filtert de dataset naar een kleine, hoogwaardige pool van $k$ kandidaten ( $C$ ) die semantisch het meest relevant zijn voor de query.
- Dit reduceert de zoekruimte aanzienlijk en zorgt ervoor dat het MLLM zich kan focussen op de "moeilijke" kandidaten.
Fijne Selectie (Fine Stage):
- De geselecteerde kandidaten worden samen met de query ingevoerd in het MLLM via een instructie-prompt.
- Het MLLM voorspelt direct de semantische gelijkenissscore voor elke query-kandidaat-paar.
- De kandidaat met de hoogste score wordt als resultaat gekozen.
Visuele Versterking (Visual Enhancement):
- MLLMs hebben de neiging tot hallucinaties, waarbij fijne visuele details verloren gaan tijdens de generatie.
- RetLLM introduceert een visuele herinjectie module binnen de Feed-Forward Networks (FFN) van de Transformer-blokken.
- Visuele tokens worden behandeld als aanvullende "visuele kennis" (key-value entries) die tijdens de inferentie worden hergebruikt om vergeten visuele kenmerken te herstellen. Dit gebeurt zonder extra trainbare parameters, wat de trouwheid aan de invoer-afbeelding verhoogt.
Entropie-gebaseerde Besluitvorming:
- Wanneer meerdere kandidaten dezelfde hoogste score krijgen, ontstaat er onduidelijkheid.
- Het systeem gebruikt een entropie-gebaseerde strategie om de onzekerheid van het model te meten. Het vraagt het model om een "True/False" beoordeling en berekent de entropie van de output-logits.
- De kandidaat met de laagste entropie (hoogste zekerheid) wordt geselecteerd uit de gelijkgestemde opties.

Belangrijkste Bijdragen

Nieuwe Formulering: De auteurs reformuleren multimodale retrieval als een taak voor het genereren van gelijkenissscores, waardoor complexe queries (zoals lange teksten of samengestelde inputs) zonder fine-tuning kunnen worden verwerkt.
RetLLM Framework: Een volledig training- en data-vrij raamwerk dat een ruw-naar-fijn strategie combineert met visuele versterking en entropie-gedreven besluitvorming.
Superieure Zero-Shot Prestaties: Het paper toont aan dat MLLMs, zonder enige training, sterke retrieval-prestaties kunnen leveren die concurreren met of zelfs beter zijn dan modellen die specifiek voor deze taak zijn getraind.

Resultaten

RetLLM is geëvalueerd op zes benchmarks, waaronder Flickr30K, COCO, ShareGPT4V, Urban1K, SugarCrepe en MMEB, allemaal in een zero-shot setting.

Over het algemeen: RetLLM presteert consequent beter dan zero-shot baselines (zoals CLIP, EVA-CLIP) en getrainde MLLM-retrievers (zoals E5-V, VLM2Vec).
Specifieke prestaties:
- Op Flickr30K bereikt RetLLM 94,5% Recall@1 (tegenover 88,7% voor E5-V).
- Op ShareGPT4V (tekst-naar-afbeelding) scoort het 94,2% (tegenover 86,9% voor VLM2Vec).
- Op de SugarCrepe benchmark (compositional retrieval) behaalt het 96,2%, wat een verbetering is van 2% ten opzichte van de beste concurrent.
- Op het uitgebreide MMEB benchmark behaalt RetLLM een gemiddelde Precision@1 van 54,2%, wat een verbetering is van 12,6% ten opzichte van de sterkste zero-shot baseline (UniME).
Ablatie-studies: Deze bevestigen dat zowel de visuele versterking (cruciaal voor visuele trouw) als de entropie-gebaseerde selectie (cruciaal voor het oplossen van gelijke scores) essentieel zijn voor de prestaties. De prestaties schalen bovendien mee met de kracht van de onderliggende MLLM en CLIP-modellen.

Betekenis en Conclusie

RetLLM demonstreert dat Multimodale Grootte Taalmodellen een ingebouwde, sterke redeneercapaciteit hebben voor informatieretrieval die niet afhankelijk is van kostbare training of specifieke datasets.

De belangrijkste implicaties zijn:

Efficiëntie en Kosten: Het elimineert de noodzaak voor dure training en datacollectie, wat MMIR toegankelijker maakt.
Schalbaarheid: Het raamwerk is "plug-and-play" en profiteert automatisch van toekomstige verbeteringen in basismodellen (zoals sterkere MLLMs of CLIP-varianten).
Toekomstbestendigheid: Het biedt een duurzame oplossing voor retrieval-systemen die complexere, multimodale queries moeten verwerken zonder de beperkingen van traditionele embedding-gebaseerde methoden.

Kortom, RetLLM bewijst dat een slimme prompt-engineering en een hybride zoekstrategie voldoende kunnen zijn om state-of-the-art resultaten te behalen in multimodale retrieval.

RETLLM: Training and Data-Free MLLMs for Multimodal Information Retrieval

1. De "Grof- dan Fijn" Strategie (De Vismolen)

2. Het "Gezichtsverlies" Probleem (De Visual Enhancement)

3. De "Twijfel-Check" (Entropy-based Decision)

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank