V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

V-DyKnow: Een Spiegel voor de Verouderde Kennis van AI

Stel je voor dat je een zeer slimme, maar wat verouderde bibliothecaris hebt. Deze bibliothecaris (de AI) heeft miljoenen boeken gelezen en kan alles vertellen over de wereld. Maar er is een probleem: de boeken in zijn bibliotheek zijn niet bijgewerkt. Ze bevatten informatie uit 2018, 2020 of 2022. Als je hem vraagt: "Wie is de president van Frankrijk?", antwoordt hij misschien nog steeds met de naam van iemand die dat in 2020 was, terwijl de situatie nu anders is.

Dit is precies het probleem dat de onderzoekers van de Universiteit van Trento hebben onderzocht met hun nieuwe test, genaamd V-DyKnow.

Hier is hoe het werkt, vertaald in alledaags taal:

1. Het Probleem: De "Gevallen Foto"

De meeste moderne AI-modellen (zowel die met tekst als die met plaatjes) worden getraind op een "snapshot" van de wereld. Het is alsof je een foto maakt van een drukke markt en die foto als enige waarheid gebruikt. Maar op de echte markt verandert er constant iets: mensen komen en gaan, winkels sluiten, leiders wisselen.

De AI denkt dat de foto de hele waarheid is. Als je haar vraagt naar iets dat op de foto staat, geeft ze het antwoord dat op de foto staat, zelfs als het in het echt al jaren geleden is veranderd.

2. De Nieuwe Test: V-DyKnow

De onderzoekers hebben een nieuwe testbedacht, V-DyKnow. In plaats van de AI alleen tekst te geven, geven ze haar plaatjes.

De Oude Manier: Je vraagt: "Wie is de CEO van Apple?" (Tekst).
De Nieuwe Manier: Je toont een foto van het Apple-logo en vraagt: "Wie is de CEO van dit bedrijf?" (Plaatje).

De test kijkt of de AI nog steeds de oude, verouderde antwoorden geeft, of dat ze de huidige, echte wereld kent. Ze hebben 139 feiten getest, zoals: "Wie is de president van dit land?" (met een vlag of wapen), "Welk team speelt deze voetballer?" (met een foto van de speler) en "Wie is de baas van dit bedrijf?" (met een logo).

3. De Verbluffende Resultaten

Wat bleek eruit? De AI's zijn vaak verouderd, zelfs als ze heel slim lijken.

De "Bril" van de AI: Als je de AI een tekst geeft, werkt het vaak redelijk goed. Maar als je een plaatje geeft, wordt het een ramp. Het is alsof de AI een bril op heeft die alleen tekst scherp ziet, maar plaatjes wazig maakt. Ze herkennen het plaatje misschien wel (ze weten dat het een Apple-logo is), maar hun "geheugen" over wie de baas is, is verouderd.
Verouderde Feiten: Veel AI's gaven antwoorden die in 2020 waar waren, maar nu niet meer. Ze lijken vast te zitten in een tijdreis naar het verleden.
De "Kloof": Er is een groot gat tussen wat de AI weet als je het vraagt in woorden, en wat ze weten als je het vraagt met een plaatje. Het is alsof ze twee verschillende hersenen hebben: één die tekst begrijpt en één die plaatjes ziet, en die twee praten niet goed met elkaar.

4. Proberen het te Fixen (De "Plekken")

De onderzoekers probeerden ook om de AI's te "repareren". Ze gebruikten methoden om nieuwe feiten in het geheugen van de AI te plakken, zonder de hele AI opnieuw te hoeven leren.

Resultaat: Het werkte niet goed. Het was alsof je probeert een nieuw adres in een oude telefoon te schrijven, maar de oude nummers blijven maar doorgaan. De AI's verwarren de nieuwe informatie met de oude, of ze vergeten het nieuwe adres direct weer.
De "Google" Methode: Als je de AI wel de juiste informatie toestuurt tijdens het gesprek (zoals een zoekmachine die het antwoord vindt), gaat het beter. Maar dit betekent dat de AI zelf nog steeds niets heeft geleerd; ze is gewoon afhankelijk van een hulpmiddel.

5. Wat betekent dit voor ons?

De boodschap is duidelijk: Onze slimme AI's zijn niet zo actueel als we denken.

Ze zijn getraind op een wereld die niet meer bestaat. Als je een AI vraagt naar de huidige situatie in de wereld, moet je oppassen. Ze kunnen je vertellen wat er in 2022 gebeurde, terwijl we nu in 2025 zitten.

De conclusie in één zin:
V-DyKnow toont aan dat we AI's moeten leren om niet alleen naar "oude foto's" van de wereld te kijken, maar om de wereld als een levend, veranderend verhaal te zien, vooral als ze naar plaatjes kijken. Zolang we dat niet doen, blijven ze verouderde bibliothecarissen met een verouderde kaart van de stad.

V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models

1. Het Probleem: De "Gevallen Foto"

2. De Nieuwe Test: V-DyKnow

3. De Verbluffende Resultaten

4. Proberen het te Fixen (De "Plekken")

5. Wat betekent dit voor ons?

Probleemstelling

Methodologie: V-DyKnow Benchmark

Belangrijkste Resultaten

Bijdragen

Betekenis en Conclusie

V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models

1. Het Probleem: De "Gevallen Foto"

2. De Nieuwe Test: V-DyKnow

3. De Verbluffende Resultaten

4. Proberen het te Fixen (De "Plekken")

5. Wat betekent dit voor ons?

Probleemstelling

Methodologie: V-DyKnow Benchmark

Belangrijkste Resultaten

Bijdragen

Betekenis en Conclusie

Meer zoals dit

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents