MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

Het paper introduceert MultiHaystack, een nieuw benchmark met meer dan 46.000 multimodale documenten, afbeeldingen en video's om de prestaties van multimodale grote taalmodellen te evalueren bij het ophalen van relevante bewijsstukken uit grote verzamelingen en het redeneren daarover, waarbij blijkt dat de huidige modellen sterk presteren bij gegeven bewijs maar aanzienlijk falen bij het zelf vinden van dat bewijs.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De "MultiHaystack": Een Naald in een Hooiberg van 40.000 Foto's, Video's en Documenten

Stel je voor dat je op zoek bent naar een heel specifiek antwoord op een vraag, bijvoorbeeld: "Op welk exact moment in deze video wordt de motorolie vervangen?"

Vroeger kregen slimme computers (AI) alleen de video te zien die het antwoord bevatte. Het was alsof je een raadsel kreeg met de oplossing al in je hand. Maar in het echte leven is dat niet hoe het werkt. Je moet eerst die ene video vinden tussen duizenden andere video's, foto's en documenten, en dan pas het antwoord zoeken.

De auteurs van dit paper hebben een nieuwe test ontwikkeld, genaamd MultiHaystack (wat letterlijk "Multi-Hooiberg" betekent), om te zien of computers dit echte probleem kunnen oplossen.

Hier is hoe het werkt, vertaald in simpele taal:

1. Het Probleem: De "Gouden Kooi"

Tot nu toe werden slimme computers getest in een "gouden kooi". Ze kregen alleen de juiste foto of video te zien om een vraag te beantwoorden. Het was alsof je een spoorzoekersspel speelde, maar de spoorzoekers kregen de schat al in hun hand.

  • Het resultaat: De computers leken super slim.
  • De realiteit: In het echte leven moeten ze eerst zoeken in een enorme berg met 46.000 verschillende items (foto's, video's, PDF's). Als ze de verkeerde foto pakken, kunnen ze het antwoord nooit vinden, zelfs niet als ze heel slim zijn.

2. De Oplossing: De MultiHaystack Test

De onderzoekers hebben een enorme "hooiberg" gemaakt met 46.000 items.

  • De Naald: Voor elke vraag is er precies één item in die berg dat het antwoord bevat (de "naald").
  • De Taak: De computer moet eerst die ene naald vinden tussen de 46.000 hooistengels (zoeken) en daarna het antwoord geven (redeneren).
  • De Mix: Het is niet alleen tekst of alleen foto's. Het is een mengelmoes van video's, documenten en afbeeldingen. De computer moet weten waar hij moet zoeken.

3. Wat hebben ze ontdekt? (De Verbluffende Resultaten)

Toen ze de slimste computers van vandaag (zoals GPT-5 en andere AI-modellen) op deze test zetten, zagen ze iets opvallends:

  • Situatie A (De gouden kooi): Als je de computer het juiste antwoord-item direct geeft, presteert hij fantastisch (bijna 80% goed). Hij is slim genoeg om het antwoord te vinden als hij weet waar hij moet kijken.
  • Situatie B (De echte hooiberg): Als je de computer laat zoeken in de hele berg van 46.000 items, stort de prestatie in. De beste modellen zakken naar ongeveer 50% goed.

De conclusie: Het probleem is niet dat de computers niet kunnen redeneren. Het probleem is dat ze niet goed kunnen zoeken in een grote, gemengde berg van verschillende soorten media. Ze raken de weg kwijt tussen de foto's, video's en teksten.

4. Waarom is dit belangrijk?

Stel je voor dat je een dokter bent die een diagnose moet stellen.

  • Vroeger: De dokter kreeg alleen de röntgenfoto van de patiënt te zien.
  • Nu: De dokter moet eerst zoeken in een archief van 40.000 patiëntdossiers, video's van operaties en oude medische artikelen om de juiste foto te vinden, en daarna de diagnose stellen.

Deze test laat zien dat AI nog niet klaar is voor die tweede stap. Ze zijn goed in het lezen van de foto, maar slecht in het vinden van de juiste foto in de grote berg.

Samenvattend in één zin:

De MultiHaystack is een nieuwe test die laat zien dat slimme computers nog steeds verdrinken in een zee van informatie; ze kunnen het antwoord vinden als je het hun geeft, maar ze vinden het niet als ze zelf moeten zoeken in een enorme, gemengde berg van video's, foto's en documenten.

De onderzoekers hopen dat deze test helpt om AI-systemen te verbeteren, zodat ze in de toekomst net zo goed kunnen zoeken als ze kunnen redeneren.