It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Titel: Warum KI-Uhren noch immer die Zeit falsch ablesen (und wie wir das ändern)

Stell dir vor, du hast einen sehr intelligenten Roboter, der alles auf der Welt sehen und verstehen kann. Er kann Fotos von Hunden analysieren, Texte übersetzen und sogar komplexe wissenschaftliche Fragen beantworten. Aber wenn du ihm ein Foto einer klassischen Wanduhr mit Zeigern zeigst, sagt er dir oft: „Es ist 14 Uhr 30", obwohl die Uhrzeit eigentlich 10 Uhr 10 ist.

Das ist das Problem, das die Forscher in diesem Papier untersuchen. Moderne KI-Modelle (genannt „Vision-Language Models") sind super, aber beim Ablesen von analogen Uhren scheitern sie kläglich. Warum? Und wie haben die Forscher es geschafft, das zu beheben?

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen.

1. Das Problem: Der Roboter lernt nur aus Büchern, nicht aus dem echten Leben

Die Forscher haben festgestellt, dass die KI-Modelle bisher hauptsächlich mit künstlichen, perfekten Bildern trainiert wurden.

Die Analogie: Stell dir vor, du möchtest einem Kind das Autofahren beibringen. Aber du bringst es nur in einem leeren, weißen Raum auf einem Simulator bei, wo es nie regnet, nie andere Autos sieht und die Straße immer perfekt gerade ist. Wenn das Kind dann auf die echte, nasse, chaotische Straße kommt, weiß es nicht, wie es reagieren soll.

Genau so war es mit den Uhren-Daten für die KI:

Die Trainingsbilder waren oft zu perfekt (wie aus einem Computerprogramm generiert).
Sie zeigten nur Uhren in klarem Licht, ohne Schatten, ohne Verdeckungen.
Die KI hat gelernt, eine Uhr zu erkennen, aber sie versteht die räumliche Beziehung zwischen den Zeigern nicht richtig. Sie verwechselt ständig den kurzen Stundenzeiger mit dem langen Minutenzeiger.

2. Die Lösung: Ein neues Trainingsbuch mit echten Fotos

Um das zu ändern, haben die Forscher eine riesige neue Datensammlung namens TickTockVQA erstellt.

Was ist das? Ein Album mit über 12.000 Fotos von echten Uhren aus der echten Welt.
Der Unterschied: Diese Fotos zeigen Uhren in Küchen, an Türmen, in dunklen Ecken, mit Reflexionen auf dem Glas, oder sogar Uhren, die schief hängen. Es ist wie der Unterschied zwischen einem Lehrbuch für Autofahren und einer echten Fahrstunde im Stadtverkehr bei Regen.

Durch das Training mit diesen „echten" Bildern lernte die KI, dass Uhren nicht immer perfekt aussehen und dass sie trotzdem die Zeit ablesen müssen.

3. Der Trick: Der „Zeiger-Tausch"-Lehrer (Swap-DPO)

Aber nur mehr Bilder zu zeigen, reichte nicht ganz. Die KI verwechselte immer noch oft die Zeiger. Also haben die Forscher eine spezielle Lernmethode namens Swap-DPO entwickelt.

Die Analogie: Stell dir vor, du lehrst jemanden, wie man ein Auto fährt.
- Normales Lernen (SFT): Du sagst: „Drücke auf das Gaspedal, um zu beschleunigen." (Das ist das richtige Verhalten).
- Das Problem: Der Schüler drückt manchmal aus Versehen auf die Bremse und denkt, das wäre Gas.
- Der neue Trick (Swap-DPO): Du sagst dem Schüler nicht nur, was er tun soll, sondern du zeigst ihm auch absichtlich den falschen Weg und sagst: „Siehst du? Wenn du hier auf die Bremse drückst, passiert das. Das ist falsch! Wir wollen das Gaspedal drücken."

Bei der KI haben die Forscher genau das gemacht:

Sie gaben der KI ein Bild einer Uhr.
Sie ließen die KI eine Zeit vorhersagen.
Wenn die KI falsch lag (oder wenn sie eine korrekte Zeit nahm und die Zeiger geometrisch vertauschte), sagten sie der KI: „Nein, das ist falsch! Die kurze Hand ist der Stundenzeiger, die lange Hand ist der Minutenzeiger."
Sie haben der KI also explizit beigebracht, den Unterschied zwischen den Zeigern zu erkennen, indem sie ihr die falsche Antwort als „schlechte" Antwort vorführten.

4. Das Ergebnis: Ein riesiger Erfolg

Das Ergebnis war beeindruckend:

Vor dem Training lag die KI bei nur 1,4 % korrekten Antworten. Das war fast wie Raten.
Nach dem Training mit den echten Fotos und dem „Zeiger-Tausch-Trick" lag die Genauigkeit bei 46,2 %.
In vielen schwierigen Situationen (dunkle Bilder, schräge Uhren) war die KI jetzt deutlich besser als die besten kommerziellen Modelle (wie GPT-5 oder Claude), die ohne dieses spezielle Training versagten.

Zusammenfassung für den Alltag

Die Botschaft der Forscher ist einfach:
Künstliche Intelligenz ist stark, aber sie braucht echte Erfahrungen, um wirklich schlau zu werden. Wenn man KI nur mit perfekten, künstlichen Bildern füttert, wird sie im echten Leben scheitern. Und manchmal muss man ihr nicht nur sagen, was richtig ist, sondern ihr auch zeigen, warum eine fast richtige Antwort (wie verwechselte Zeiger) trotzdem falsch ist.

Mit ihrer neuen Methode haben sie der KI geholfen, die Welt der analogen Uhren endlich richtig zu „lesen" – ein kleiner, aber wichtiger Schritt, damit Roboter und KI-Systeme in unserer komplexen, echten Welt besser zurechtkommen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Trotz der bemerkenswerten Fortschritte bei Vision-Language-Modellen (VLMs) in komplexen multimodalen Aufgaben scheitern diese Modelle oft an der scheinbar einfachen Aufgabe, die Zeit auf analogen Uhren abzulesen.

Herausforderung: Das Ablesen einer Analoguhr erfordert nicht nur die Objekterkennung, sondern eine feingranulare raum-zeitliche Reasoning-Fähigkeit. Modelle müssen die Uhr lokalisieren, die Zeiger identifizieren, ihre geometrische Konfiguration interpretieren und kontinuierliche Winkelbeziehungen in diskrete Zeitwerte umwandeln.
Aktuelle Defizite: State-of-the-Art-Modelle (z. B. GPT-4, Gemini, Llama) zeigen in realen Szenarien eine sehr geringe Genauigkeit (oft <10%). Ein Hauptproblem ist die Verwechslung von Stunden- und Minutenzeigern.
Datenmangel: Bestehende Datensätze sind meist synthetisch, flach oder stark stilisiert (z. B. nur die Zeit 10:10) und erfassen nicht die visuelle Variabilität realer Umgebungen (Beleuchtung, Verdeckung, Perspektive, verschiedene Zifferblätter).

2. Methodik

Die Autoren schlagen einen zweistufigen Ansatz vor, der aus einem neuen Datensatz und einer spezialisierten Feinabstimmungstechnik besteht.

A. TickTockVQA (Der Datensatz)

Es wurde ein neuer, menschlich annotierter Benchmark namens TickTockVQA entwickelt.

Umfang: Ca. 12.483 Bilder aus realen Umgebungen (aus Quellen wie COCO, Visual Genome, Filmrahmen).
Vielfalt: Der Datensatz deckt diverse Uhrentypen ab (Wanduhr, Turmuhr, Armbanduhr, Postuhr) und Szenarien (Indoor/Outdoor, verschiedene Beleuchtungen, Verdeckungen, gespiegelte Uhren).
Annotation: Jedes Bild enthält explizite Annotationen für Stunde, Minute und (falls aus dem Kontext ableitbar) AM/PM.
Qualitätssicherung: Entfernung von Duplikaten und Filterung von synthetischen oder digitalen Uhren, um nur analoge Instanzen zu behalten.

B. Swap-DPO (Die Trainingsstrategie)

Um die spezifische Schwäche der Zeiger-Verwechslung zu beheben, wird ein zweistufiger Fine-Tuning-Prozess vorgeschlagen:

Supervised Fine-Tuning (SFT): Das Basismodell wird zunächst mit Low-Rank Adaptation (LoRA) auf dem TickTockVQA-Datensatz trainiert, um grundlegende Uhr-Erkennung zu lernen.
Swap-DPO (Direct Preference Optimization): Dies ist der Kernbeitrag.
- Problem: SFT allein löst die semantische Zuordnung der Zeiger oft nicht vollständig.
- Lösung: Es werden „Hard Negative"-Paare generiert. Für jede Ground-Truth-Zeit ( $y_w$ ) wird eine abgelehnte Antwort ( $y_l$ ) erzeugt, bei der die Rollen von Stunden- und Minutenzeiger geometrisch getauscht werden (basierend auf den Winkeln der Zeiger).
- Ziel: Das Modell wird durch DPO explizit darauf trainiert, die korrekte Zeit gegenüber der geometrisch konsistenten, aber semantisch falschen „getauschten" Zeit zu bevorzugen. Dies zwingt das Modell, die visuellen Merkmale (Länge, Dicke) der Zeiger korrekt ihren semantischen Rollen zuzuordnen.

3. Schlüsselbeiträge

TickTockVQA: Der bisher größte und vielfältigste Benchmark für das Ablesen analoger Uhren in der Wildnis („in-the-wild"), der reale Komplexität abbildet.
Swap-DPO Framework: Eine spezialisierte DPO-Variante, die gezielt das Problem der Zeiger-Vertauschung adressiert, indem sie geometrisch konsistente, aber falsche Alternativen als Negativbeispiele nutzt.
Analyse synthetischer vs. realer Daten: Die Studie zeigt, dass selbst hochfotorealistische synthetische Daten (generiert durch Diffusion-Modelle) realen Daten unterlegen sind, da sie subtile geometrische Artefakte enthalten können, die das präzise räumliche Reasoning stören.

4. Ergebnisse

Die Experimente wurden mit mehreren VLM-Architekturen durchgeführt (Llama-3.2-11B, Qwen2.5-VL-7B, Gemma3-12B).

Leistungssteigerung:
- Das Llama-3.2-11B-Modell erreichte mit dem ITGR-Ansatz (TickTockVQA + Swap-DPO) eine Gesamtgenauigkeit von 46,22 % (Full Time Accuracy).
- Dies stellt eine Verbesserung von 44,81 Prozentpunkten gegenüber dem Zero-Shot-Baseline (1,41 %) dar.
- Der mittlere absolute Fehler (MAE) sank drastisch von ca. 157 Minuten (Zero-Shot) auf 59,22 Minuten (ITGR).
Reduktion der Zeiger-Verwechslung:
- Der Gap zwischen der Baseline-Accuracy und der „Swap-Äquivalenz"-Accuracy (wo Vertauschungen als korrekt gewertet werden) wurde signifikant verringert. Dies beweist, dass Swap-DPO das Modell tatsächlich lehrt, die Zeigerrollen zu unterscheiden, und nicht nur die Uhr zu lokalisieren.
Vergleich mit synthetischen Daten:
- Modelle, die nur auf synthetischen Daten (SynClock, CtrlClock) trainiert wurden, schnitten deutlich schlechter ab als Modelle, die auf dem realen TickTockVQA trainiert wurden. Dies unterstreicht die Notwendigkeit realer Daten für robustes räumliches Reasoning.
Qualitative Ergebnisse: Das Modell löst Fälle, bei denen proprietäre Modelle (wie GPT-5 oder Gemini 2.5 Pro) scheitern, insbesondere bei schwierigen Perspektiven, Verdeckungen oder unklaren Zeigern.

5. Bedeutung und Ausblick

Testumgebung für räumliches Reasoning: Das Ablesen analoger Uhren wird als principled Testbed (prinzipielle Testumgebung) für feingranulares räumlich-zeitliches Reasoning in VLMs etabliert.
Robustheit: Die Arbeit zeigt, dass reine Skalierung von Daten oder photorealistische Synthese nicht ausreicht; die Kombination aus realen Daten und zielgerichteter Präferenzoptimierung (Swap-DPO) ist entscheidend.
Zukunft: Die Autoren planen, TickTockVQA zu erweitern und Swap-DPO auf andere komplexe räumlich-zeitliche Aufgaben zu verallgemeinern.

Fazit: Das Paper demonstriert, dass VLMs durch die Kombination aus hochwertigen realen Daten und einer spezialisierten Trainingsstrategie (Swap-DPO), die gezielt semantische Verwechslungen adressiert, signifikant in ihrer Fähigkeit verbessert werden können, analoge Uhren in realen, unordentlichen Umgebungen korrekt abzulesen.

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

1. Das Problem: Der Roboter lernt nur aus Büchern, nicht aus dem echten Leben

2. Die Lösung: Ein neues Trainingsbuch mit echten Fotos

3. Der Trick: Der „Zeiger-Tausch"-Lehrer (Swap-DPO)

4. Das Ergebnis: Ein riesiger Erfolg

Zusammenfassung für den Alltag

1. Problemstellung

2. Methodik

A. TickTockVQA (Der Datensatz)

B. Swap-DPO (Die Trainingsstrategie)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes