It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Die Studie stellt fest, dass aktuelle Vision-Language-Modelle beim Ablesen analoger Uhren in realen Umgebungen versagen, und adressiert dies durch die Einführung des vielfältigen Datensatzes TickTockVQA sowie des Fine-Tuning-Frameworks Swap-DPO, um die räumlich-zeitliche reasoning-Fähigkeit und Robustheit der Modelle erheblich zu verbessern.

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Warum KI-Uhren noch immer die Zeit falsch ablesen (und wie wir das ändern)

Stell dir vor, du hast einen sehr intelligenten Roboter, der alles auf der Welt sehen und verstehen kann. Er kann Fotos von Hunden analysieren, Texte übersetzen und sogar komplexe wissenschaftliche Fragen beantworten. Aber wenn du ihm ein Foto einer klassischen Wanduhr mit Zeigern zeigst, sagt er dir oft: „Es ist 14 Uhr 30", obwohl die Uhrzeit eigentlich 10 Uhr 10 ist.

Das ist das Problem, das die Forscher in diesem Papier untersuchen. Moderne KI-Modelle (genannt „Vision-Language Models") sind super, aber beim Ablesen von analogen Uhren scheitern sie kläglich. Warum? Und wie haben die Forscher es geschafft, das zu beheben?

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen.

1. Das Problem: Der Roboter lernt nur aus Büchern, nicht aus dem echten Leben

Die Forscher haben festgestellt, dass die KI-Modelle bisher hauptsächlich mit künstlichen, perfekten Bildern trainiert wurden.

  • Die Analogie: Stell dir vor, du möchtest einem Kind das Autofahren beibringen. Aber du bringst es nur in einem leeren, weißen Raum auf einem Simulator bei, wo es nie regnet, nie andere Autos sieht und die Straße immer perfekt gerade ist. Wenn das Kind dann auf die echte, nasse, chaotische Straße kommt, weiß es nicht, wie es reagieren soll.

Genau so war es mit den Uhren-Daten für die KI:

  • Die Trainingsbilder waren oft zu perfekt (wie aus einem Computerprogramm generiert).
  • Sie zeigten nur Uhren in klarem Licht, ohne Schatten, ohne Verdeckungen.
  • Die KI hat gelernt, eine Uhr zu erkennen, aber sie versteht die räumliche Beziehung zwischen den Zeigern nicht richtig. Sie verwechselt ständig den kurzen Stundenzeiger mit dem langen Minutenzeiger.

2. Die Lösung: Ein neues Trainingsbuch mit echten Fotos

Um das zu ändern, haben die Forscher eine riesige neue Datensammlung namens TickTockVQA erstellt.

  • Was ist das? Ein Album mit über 12.000 Fotos von echten Uhren aus der echten Welt.
  • Der Unterschied: Diese Fotos zeigen Uhren in Küchen, an Türmen, in dunklen Ecken, mit Reflexionen auf dem Glas, oder sogar Uhren, die schief hängen. Es ist wie der Unterschied zwischen einem Lehrbuch für Autofahren und einer echten Fahrstunde im Stadtverkehr bei Regen.

Durch das Training mit diesen „echten" Bildern lernte die KI, dass Uhren nicht immer perfekt aussehen und dass sie trotzdem die Zeit ablesen müssen.

3. Der Trick: Der „Zeiger-Tausch"-Lehrer (Swap-DPO)

Aber nur mehr Bilder zu zeigen, reichte nicht ganz. Die KI verwechselte immer noch oft die Zeiger. Also haben die Forscher eine spezielle Lernmethode namens Swap-DPO entwickelt.

  • Die Analogie: Stell dir vor, du lehrst jemanden, wie man ein Auto fährt.
    • Normales Lernen (SFT): Du sagst: „Drücke auf das Gaspedal, um zu beschleunigen." (Das ist das richtige Verhalten).
    • Das Problem: Der Schüler drückt manchmal aus Versehen auf die Bremse und denkt, das wäre Gas.
    • Der neue Trick (Swap-DPO): Du sagst dem Schüler nicht nur, was er tun soll, sondern du zeigst ihm auch absichtlich den falschen Weg und sagst: „Siehst du? Wenn du hier auf die Bremse drückst, passiert das. Das ist falsch! Wir wollen das Gaspedal drücken."

Bei der KI haben die Forscher genau das gemacht:

  1. Sie gaben der KI ein Bild einer Uhr.
  2. Sie ließen die KI eine Zeit vorhersagen.
  3. Wenn die KI falsch lag (oder wenn sie eine korrekte Zeit nahm und die Zeiger geometrisch vertauschte), sagten sie der KI: „Nein, das ist falsch! Die kurze Hand ist der Stundenzeiger, die lange Hand ist der Minutenzeiger."
  4. Sie haben der KI also explizit beigebracht, den Unterschied zwischen den Zeigern zu erkennen, indem sie ihr die falsche Antwort als „schlechte" Antwort vorführten.

4. Das Ergebnis: Ein riesiger Erfolg

Das Ergebnis war beeindruckend:

  • Vor dem Training lag die KI bei nur 1,4 % korrekten Antworten. Das war fast wie Raten.
  • Nach dem Training mit den echten Fotos und dem „Zeiger-Tausch-Trick" lag die Genauigkeit bei 46,2 %.
  • In vielen schwierigen Situationen (dunkle Bilder, schräge Uhren) war die KI jetzt deutlich besser als die besten kommerziellen Modelle (wie GPT-5 oder Claude), die ohne dieses spezielle Training versagten.

Zusammenfassung für den Alltag

Die Botschaft der Forscher ist einfach:
Künstliche Intelligenz ist stark, aber sie braucht echte Erfahrungen, um wirklich schlau zu werden. Wenn man KI nur mit perfekten, künstlichen Bildern füttert, wird sie im echten Leben scheitern. Und manchmal muss man ihr nicht nur sagen, was richtig ist, sondern ihr auch zeigen, warum eine fast richtige Antwort (wie verwechselte Zeiger) trotzdem falsch ist.

Mit ihrer neuen Methode haben sie der KI geholfen, die Welt der analogen Uhren endlich richtig zu „lesen" – ein kleiner, aber wichtiger Schritt, damit Roboter und KI-Systeme in unserer komplexen, echten Welt besser zurechtkommen.