Daily and Weekly Periodicity in Large Language Model Performance and Its Implications for Research

Eine longitudinale Studie zeigt, dass die Leistung von GPT-4o unter festgelegten Bedingungen signifikante tägliche und wöchentliche Schwankungen aufweist, was die Annahme einer zeitlichen Invarianz in Frage stellt und wichtige Implikationen für die Zuverlässigkeit und Reproduzierbarkeit von LLM-Forschung hat.

Ursprüngliche Autoren: Paul Tschisgale, Peter Wulff

Veröffentlicht 2026-04-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Titel: Warum KI manchmal „müde" ist: Ein Geheimnis über die Uhrzeit

Stellen Sie sich vor, Sie gehen jeden Tag in ein riesiges, hochmodernes Restaurant, um das gleiche Gericht zu bestellen: einen perfekten Burger. Sie bestellen immer beim selben Kellner, mit derselben Bestellung und am selben Tisch. Logischerweise erwarten Sie, dass der Burger jeden Tag genau gleich schmeckt, oder?

Nun, eine neue Studie von Paul Tschisgale und Peter Wulff zeigt, dass dies bei Künstlicher Intelligenz (KI) – genauer gesagt bei großen Sprachmodellen wie GPT-4o – nicht unbedingt der Fall ist. Die Forscher haben herausgefunden, dass die „Qualität" der KI-Antworten stark davon abhängt, wann man sie fragt.

Hier ist die Geschichte dahinter, einfach erklärt:

1. Das Experiment: Der KI-Testlauf

Die Forscher haben sich eine Aufgabe aus der Physik ausgedacht (eine Art Knobelaufgabe über Batterien und Glühbirnen). Über einen Zeitraum von drei Monaten haben sie diese Aufgabe jeden Tag alle drei Stunden an die KI gestellt. Insgesamt haben sie die KI fast 7.000 Mal gefragt.

Sie wollten wissen: Bleibt die Leistung der KI gleich, oder schwankt sie?

2. Die Entdeckung: Der innere Rhythmus der KI

Das Ergebnis war überraschend: Die KI war nicht immer gleich gut. Ihre Leistung schwankte wie ein Herzschlag.

  • Der Takt: Die KI schien einen täglichen Rhythmus (alle 24 Stunden) und einen wöchentlichen Rhythmus (über die Woche verteilt) zu haben.
  • Die Mischung: Besonders interessant war, dass sich diese beiden Rhythmen gegenseitig beeinflussten. Es war nicht so, dass sie einfach nur addiert wurden. Stattdessen wirkte der Wochentag wie ein Regler, der den Tagesrhythmus veränderte.

Die Analogie: Der überfüllte Supermarkt
Stellen Sie sich die KI-Server als einen riesigen Supermarkt vor.

  • Tagsüber und unter der Woche ist es dort extrem voll. Tausende Menschen (und andere Computer) bestellen gleichzeitig. Der Laden ist überlastet. Um den Kassenstau zu vermeiden, schalten die Manager (die Server-Verwalter) auf „Sparmodus". Vielleicht werden die Kassen etwas langsamer bedient oder die Qualität der Beratung leidet leicht, nur damit alle bedient werden können.
  • Nachts und am Wochenende ist es ruhiger. Die Kassen laufen im Leerlauf. Hier kann sich der Kellner (die KI) Zeit nehmen, genauer hinsehen und liefert vielleicht ein „besseres" Ergebnis.

Die Studie zeigt, dass diese Schwankungen real sind und etwa 20 % der gesamten Unterschiede in den Ergebnissen ausmachen. Das ist enorm! Es bedeutet, dass die KI an einem Dienstag um 14 Uhr vielleicht deutlich schlechter ist als an einem Sonntag um 3 Uhr morgens – obwohl sie technisch gesehen „dieselbe" KI ist.

3. Warum ist das wichtig? (Die Gefahr für die Wissenschaft)

Viele Forscher nutzen KI als Werkzeug. Sie lassen die KI Texte analysieren, Daten auswerten oder Aufgaben lösen.

  • Das Problem: Wenn ein Forscher seine Daten nur an einem einzigen Tag oder nur zu einer bestimmten Uhrzeit sammelt, könnte er ein verzerrtes Bild erhalten.
  • Beispiel: Stellen Sie sich vor, ein Forscher testet die KI nur montags um 10 Uhr. Er könnte denken: „Wow, die KI ist heute super!" oder „Die KI ist heute schlecht!". Aber das liegt gar nicht an der KI selbst, sondern nur daran, dass der Supermarkt zu dieser Zeit überfüllt war.

Das ist wie wenn man die Qualität eines Restaurants nur bewertet, wenn man genau dann hingeht, wenn der Küchenchef gerade gestresst ist. Man würde ein falsches Urteil fällen.

4. Was sollten wir tun?

Die Autoren geben ein paar einfache Tipps, damit unsere Forschung mit KI nicht auf wackeligen Beinen steht:

  1. Nicht nur einmal messen: Man sollte die KI nicht nur einmal fragen.
  2. Über die Woche verteilen: Wenn man Daten sammelt, sollte man das über eine ganze Woche (oder länger) verteilen, um den „Supermarkt-Stau" auszugleichen.
  3. Viele Wiederholungen: Man sollte die gleiche Aufgabe oft wiederholen, um den Zufall auszugleichen.

Fazit

Die KI ist kein statischer Roboter, der immer gleich funktioniert. Sie ist eher wie ein lebendiges System, das auf den Druck der Welt reagiert. Wenn wir sie als Werkzeug nutzen, müssen wir uns bewusst machen, dass die Uhrzeit und der Wochentag einen großen Einfluss darauf haben, was sie uns antwortet.

Wer das ignoriert, riskiert, dass seine Forschungsergebnisse nicht wiederholbar sind – also morgen vielleicht ganz anders aussehen als heute. Die Lösung? Einfach ein bisschen mehr Geduld und eine breitere Zeitspanne für die Tests.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →