Evaluating the Search Agent in a Parallel World

Deze paper introduceert Mind-ParaWorld, een nieuw framework en benchmark (MPW-Bench) dat Search Agents evalueert in een gesimuleerde parallelle wereld om de uitdagingen van dynamische veroudering, attributievage en reproduceerbaarheid bij het testen van zoekagenten op te lossen.

Jiawei Chen, Xintian Shen, Lihao Zheng, Lifu Mu, Haoyi Sun, Ning Mao, Hao Ma, Tao Wei, Pan Zhou, Kun Zhan

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🌍 De "Parallelle Wereld" Test voor Slimme Zoekrobots

Stel je voor dat je een superintelligente robot hebt die het hele internet kan doorzoeken om vragen te beantwoorden. Dit noemen we een Search Agent (zoekagent). Deze robots worden steeds slimmer, maar hoe testen we of ze écht goed zijn? Dat is de grote vraag die dit paper van Li Auto beantwoordt.

De onderzoekers zeggen: "Huidige tests zijn kapot." En ze hebben een nieuw, creatief idee bedacht om dit op te lossen: Mind-ParaWorld (MPW).

Laten we kijken waarom de oude tests faalden en hoe hun nieuwe "Parallelle Wereld" werkt.

1. Waarom de oude tests niet werken (De "Verouderde Kaart")

Stel je voor dat je een robot test met een oude landkaart van Nederland uit 2010.

  • Het probleem: De wereld verandert snel. Vandaag is er een nieuwe brug, morgen is de prijs van brood veranderd, en overmorgen is een sportrecord verbroken.
  • De "Difficulty Collapse": Vroeger was het moeilijk om te weten wie de snelste loper was in 2015. Maar omdat iedereen dat nu weet, is het voor een robot tegenwoordig heel makkelijk (het is "ingeburgerd"). De test wordt dus te makkelijk.
  • Het geheugen-probleem: Soms weet de robot het antwoord al uit zijn hoofd (zijn trainingsdata) en hoeft hij niet eens te zoeken. Dan weet je niet of hij slim is, of dat hij alleen maar kan "opzeggen".
  • De "Gokker": Als je de robot vraagt om het weer te checken, en hij kijkt op een echte website, kan het zijn dat die website vandaag down is of dat de zoekmachine andere resultaten laat zien dan gisteren. De test is niet eerlijk of reproduceerbaar.

2. De Oplossing: Mind-ParaWorld (De "Tijdreis-Simulatie")

In plaats van de robot te laten zoeken op het echte internet, bouwen de onderzoekers een Parallelle Wereld.

Stel je voor dat je een videospelletje maakt (zoals The Sims of Zelda), maar dan met strikte regels:

  • De Regels (Atomaire Feiten): In deze wereld gelden onschendbare wetten. Bijvoorbeeld: "In het jaar 2027 heeft speler Nico Williams precies 11 assists gegeven." Dit is een feit dat niet kan veranderen.
  • De Vragen: De robot krijgt vragen over deze toekomstige wereld (bijv. over het seizoen 2027-2028). Omdat de robot is getraind op data tot 2024, weet hij het antwoord niet. Hij moet zoeken.
  • De Zoekmachine (PEM): In plaats van Google, gebruikt de robot een speciale zoekmachine die alleen maar antwoorden geeft die gebaseerd zijn op die strikte regels van de Parallelle Wereld.

De Analogie:
Het is alsof je een detectivestest geeft in een gesloten kamer. Je hebt een doos met kaarten (de feiten). De detective (de robot) mag niet naar buiten om te vragen, maar moet de kaarten in de doos zoeken en combineren om een moord op te lossen. Als hij een kaart mist, faalt hij. Dit is eerlijk, want je weet precies welke kaarten er in de doos zaten.

3. Wat hebben ze ontdekt? (De "Bottlenecks")

Ze hebben 1.600 van deze tests gemaakt en verschillende robots (zoals Qwen, MiniMax, GPT-5) erop laten werken. Hier zijn de belangrijkste bevindingen, vertaald naar alledaagse taal:

  • De "Stop te vroeg"-ziekte:
    Veel robots geven het antwoord op voordat ze alle stukjes van de puzzel hebben gevonden.

    • Vergelijking: Het is alsof een kok een taart maakt, maar hij stopt met bakken zodra hij deeg heeft, omdat hij denkt: "Ik heb wel genoeg ingrediënten." Hij vergeet dat hij ook eieren en suiker nodig had. De robots stoppen te snel met zoeken.
  • Het "Zoekwoord"-probleem:
    Robots zijn goed in het samenvatten van informatie als ze die al hebben, maar ze zijn slecht in het bedenken van de juiste zoekwoorden.

    • Vergelijking: Als je iemand vraagt "Hoe kom ik naar het station?", zegt een slimme robot: "Ik zoek op Google." Maar een echte expert zegt: "Ik zoek eerst op 'station Amsterdam Centraal', dan op 'treinregeling', en dan op 'perronnummer'." Veel robots blijven hangen in brede, vaag vragen die geen goed antwoord geven.
  • De "Moeilijkheids-graad":
    Hoe complexer de vraag (meer feiten nodig), hoe slechter de robots presteren. Ze raken de draad kwijt en vinden niet genoeg feiten.

4. Waarom is dit belangrijk?

De onderzoekers hebben een nieuwe meetlat gemaakt (MPW-Bench) die eerlijker is dan alles wat we nu hebben.

  • Het is onveranderlijk: De feiten in de Parallelle Wereld veranderen niet.
  • Het is eerlijk: Niemand kan het antwoord uit zijn hoofd weten.
  • Het laat zien waar het misgaat: Gaat het mis bij het zoeken? Of bij het begrijpen van wat gevonden is?

Conclusie in één zin:
De robots zijn momenteel goed in het lezen van wat ze vinden, maar ze zijn nog niet goed genoeg in het plannen van hun zoektocht en het weten wanneer ze genoeg hebben gevonden. De "Parallelle Wereld" helpt ons om precies die zwakke plekken op te sporen en te verbeteren.

Dit onderzoek is een stap naar robots die echt betrouwbaar zijn voor complexe taken, zoals het vinden van de beste medicijnkeuze of het analyseren van financiële markten, zonder dat ze halverwege stoppen of hallucineren.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →