It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Deze paper introduceert het realistische dataset TickTockVQA en het fine-tuning-framework Swap-DPO om de zwakke prestaties van vision-language modellen bij het lezen van analoge klokken in complexe, echte omgevingen aanzienlijk te verbeteren.

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Tijd om het goed te doen: Waarom AI-klokken nog steeds niet goed kunnen aflezen

Stel je voor dat je een zeer intelligente robot hebt die alles kan zien en begrijpen. Hij kan foto's van katten herkennen, teksten vertalen en zelfs complexe wiskundige problemen oplossen. Maar als je hem een foto van een gewone, ronde wandklok geeft met wijzers, kijkt hij je verward aan en zegt: "Oh, het is 12:00!" terwijl de wijzers duidelijk op 3:15 staan.

Dat is precies wat er gebeurt met de slimste kunstmatige intelligenties (AI) van vandaag, de zogenaamde Vision-Language Models. Ze zijn briljant, maar op het lezen van analoge klokken zijn ze opvallend slecht.

Dit onderzoek, getiteld "It's Time to Get It Right" (Tijd om het goed te doen), legt uit waarom dit zo is en hoe de onderzoekers het hebben opgelost.

1. Het Probleem: De "Platte" Klokken

De reden dat AI faalt, is als het ware omdat ze alleen hebben geoefend met tekeningen van klokken, niet met echte klokken.

  • De Oefening: De AI's zijn getraind op synthetische data. Denk aan klokken die eruitzien als in een tekenfilm: perfect rond, heldere kleuren, geen schaduwen, en altijd op een standaard tijd (zoals 10:10, wat vaak in reclames wordt gebruikt).
  • De Realiteit: In het echte leven zijn klokken anders. Ze hangen schuin, er valt een schaduw van een raam op, de wijzers zijn soms heel dun of juist dik, en soms is er een glasplaatje dat reflecteert.
  • Het Resultaat: De AI leert de "regels" van de tekenklokken, maar faalt volledig als ze geconfronteerd wordt met de chaos van de echte wereld. Ze verwarren vaak de korte wijzer (uren) met de lange wijzer (minuten). Het is alsof ze denken dat de lange arm van een mens de benen zijn en de korte arm de armen, en dat ze dan proberen te lopen.

2. De Oplossing: Een Nieuwe Schoolboek (TickTockVQA)

Om de AI's te leren hoe het echt werkt, hebben de onderzoekers een nieuw, enorm boek met oefeningen gemaakt, genaamd TickTockVQA.

  • Wat is het? In plaats van computergegenereerde tekeningen, hebben ze 12.000 echte foto's van klokken verzameld. Van oude torenklokken in de regen tot polshorloges op een bewogen arm, en zelfs klokken in filmscènes.
  • De Menselijke Touch: Elke foto is handmatig gecontroleerd door mensen. Ze hebben precies genoteerd: "Dit is de uren-wijzer, dit is de minuten-wijzer, en ja, het is 's middags."
  • Het Effect: Door te trainen op deze "echte" foto's, leert de AI dat een klok er niet altijd perfect uitziet. Het is als het verschil tussen een kind dat alleen in een zwembad leert zwemmen, versus een kind dat ook in een stromende rivier moet leren zwemmen.

3. De Slimme Truc: Swap-DPO (De "Verkeerde" Leraar)

Alleen meer foto's tonen was niet genoeg. De AI bleef soms de wijzers verwarren. Daarom bedachten de onderzoekers een slimme trainingstechniek genaamd Swap-DPO.

Stel je voor dat je een leerling hebt die steeds de verkeerde tijd opschrijft.

  • Normale training: De leraar zegt: "Het is 3:15. Dat is fout, het is 12:00."
  • Swap-DPO training: De leraar zegt: "Kijk eens. Als je de lange en korte wijzer verwisselt, denk je dan dat het 12:00 is? Dat is een logische fout. Laten we kijken waarom dat niet klopt."

De AI krijgt dus niet alleen het juiste antwoord, maar krijgt ook opzettelijk verkeerde voorbeelden getoond waarbij de wijzers zijn verwisseld. De AI moet dan leren: "Aha! De lange wijzer hoort bij de minuten, niet bij de uren, zelfs als hij er anders uitziet."

Dit is als een spiegel die de AI laat zien waar hij precies in de fout gaat, zodat hij die specifieke verwarring kan oplossen.

4. De Resultaten: Van Slapend naar Wakker

Na deze training gebeurde er iets wonderlijks:

  • De AI's werden plotseling veel beter. Waar ze voorheen maar in 1,4% van de gevallen de tijd goed hadden, haalden ze nu 46% (en dat is een enorme sprong voor een taak die voor mensen zo makkelijk lijkt).
  • Ze konden nu klokken lezen in donkere kamers, onder hoek, en zelfs als er een glasplaatje op zat.
  • Ze verwarren de wijzers veel minder vaak.

Conclusie: Waarom is dit belangrijk?

Je zou kunnen denken: "Wie leest er nog steeds op een analoge klok?" Maar dit onderzoek gaat verder dan alleen klokken.

Het bewijst dat AI's moeite hebben met ruimtelijk redeneren. Ze kunnen objecten herkennen, maar ze begrijpen niet goed hoe die objecten zich tot elkaar verhouden in de ruimte (bijvoorbeeld: welke arm is langer en wat betekent dat?).

Als we AI's kunnen leren om de tijd goed te lezen op een vervormde, schuine klok in een donkere kamer, betekent dit dat we ze ook beter kunnen leren om:

  • Medische scans te lezen (waar de positie van een orgaan cruciaal is).
  • Auto's te laten rijden (waar afstanden en hoeken belangrijk zijn).
  • Robots te bouwen die in onze chaotische, echte wereld kunnen werken.

Kortom: Door de tijd goed te leren lezen, leren deze slimme machines eindelijk om de wereld om hen heen echt te begrijpen, en niet alleen te raden.