Ursprüngliche Autoren: Harish Vijayakumar

Veröffentlicht 2026-05-08✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Harish Vijayakumar

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie versuchen, die Leistung eines Schülers zu bewerten. In früheren Zeiten, wenn Sie einen Schüler aufforderten, ein Matheproblem zu lösen, erhielten Sie immer exakt dieselbe Antwort. Sie konnten ihm eine einfache Punktzahl geben: „10 von 10". So testeten wir früher Computersoftware. Wir baten Benutzer, einen Knopf zu drücken, und wenn es funktionierte, erhielten sie einen Punkt. Wenn nicht, dann nicht. Das System war vorhersehbar, wie ein Getränkeautomat, der Ihnen immer eine Limonade gibt, wenn Sie „A1" drücken.

Aber heute sind Computer anders. Sie nutzen Künstliche Intelligenz (KI). Eine KI ist kein Getränkeautomat; sie ist eher wie ein plaudernder, kreativer Freund. Wenn Sie Ihren Freund zweimal dieselbe Frage stellen, könnte er Ihnen je nach seiner Stimmung, der Tageszeit oder dem, worüber er gerade gesprochen hat, zwei leicht unterschiedliche Antworten geben.

Das Problem, so dieser Artikel, besteht darin, dass wir weiterhin versuchen, diesen „plaudernden Freund" mit den alten „Getränkeautomaten"-Tests zu bewerten. Das funktioniert nicht. Die alten Tests gehen davon aus, dass der Computer immer dasselbe tut, doch KI ist chaotisch, unvorhersehbar und verändert sich im Laufe der Zeit.

Um dies zu beheben, schlägt der Autor, Harish Vijayakumar, eine neue Methode vor, um zu messen, wie gut sich die Nutzung einer KI anfühlt. Er nennt sie ADUX-Stat. Anstatt eine einzelne Zahl zu vergeben, verwendet dieses neue System drei „Werkzeuge", um die Persönlichkeit der KI zu verstehen.

Hier ist die Funktionsweise der drei Werkzeuge, erläutert mit einfachen Analogien:

1. Das „Überraschungsmessgerät" (Interaktions-Entropie-Index)

Das Problem: Manchmal ist eine KI hilfreich und konsistent. Manchmal ist sie wild und unvorhersehbar. Wenn Sie einen Sprachassistenten nach dem Wetter fragen und er jedes Mal eine andere Antwort gibt, werden Sie frustriert.
Die Lösung: Dieses Werkzeug misst, wie sehr die KI Sie „überrascht".

Niedrige Überraschung (Gut): Die KI verhält sich wie eine zuverlässige Bibliothekarin. Sie bitten um ein Buch, und sie reicht Ihnen immer das richtige.
Hohe Überraschung (Schlecht oder chaotisch): Die KI verhält sich wie ein Zauberer, der zufällige Hasen aus einem Hut zieht. Manchmal ist es großartig, manchmal ist es Unsinn.
Dieses Werkzeug sagt nicht nur „es hat funktioniert"; es misst, wie stark sich das Verhalten der KI aus Ihrer Perspektive verändert.

2. Der „Zeitreise-Kompass" (Temporale Drift-Koeffizient)

Das Problem: KI ist nicht statisch. Sie lernt. Eine KI könnte beim ersten Kennenlernen schrecklich sein, aber mit jedem Gespräch klüger werden. Oder sie könnte zunächst großartig sein und sich langsam verschlechtern, während sie verwirrt wird.
Die Lösung: Dieses Werkzeug betrachtet die Leistung der KI über die Zeit, als würde man einen Film statt eines einzelnen Fotos ansehen.

Positive Drift: Die KI wird besser, wie ein Schüler, der hart lernt und seine Noten Woche für Woche verbessert.
Negative Drift: Die KI wird schlechter, wie ein Automotor, der nach einigen Monaten seltsame Geräusche macht.
Dies hilft uns zu erkennen, ob die KI ein „langsamer Lerner" oder ein „langsamer Verfallender" ist, was ein einzelner Test niemals verraten kann.

3. Die „Ehrlichkeitsblase" (Bayesscher Usability-Vertrauenswert)

Das Problem: Alte Tests geben Ihnen eine einzelne Zahl, wie „85 % Zufriedenheit". Doch diese Zahl wirkt zu präzise. Es ist, als würde man sagen: „Ich bin genau 1,78 Meter groß." In Wirklichkeit enthalten Messungen Fehler, und bei KI gibt es viel Unsicherheit.
Die Lösung: Dieses Werkzeug gibt Ihnen einen Bereich anstelle einer einzelnen Zahl. Es ist, als würde man sagen: „Ich bin wahrscheinlich zwischen 1,75 und 1,80 Meter groß."

Es verwendet eine spezielle mathematische Methode (Bayessche Statistik), um einzugestehen: „Wir sind nicht zu 100 % sicher, aber hier ist der wahrscheinlichste Bereich."
Wenn Sie nur wenige Daten haben, ist der Bereich breit (ehrlich bezüglich des Nichtwissens). Wenn Sie viele Daten haben, wird der Bereich enger (mehr Vertrauen).
Dies verhindert, dass wir so tun, als wüssten wir mehr, als wir tatsächlich wissen.

Wie sie es getestet haben

Der Autor hat dies noch nicht an echten Menschen getestet. Stattdessen führte er ein „Gedankenexperiment" durch. Er stellte sich vor, wie diese drei Werkzeuge bei fünf verschiedenen Arten von KI-Produkten funktionieren würden:

Chatbots: Er sagte voraus, dass sie eine hohe „Überraschung" aufweisen würden, da sie viele verschiedene Dinge sagen können.
Empfehlungsmaschinen (wie Netflix): Er sagte voraus, dass sie mit der Zeit besser werden würden („Positive Drift"), während sie Ihren Geschmack lernen.
Formularausfüller: Er sagte voraus, dass sie eine niedrige „Überraschung" aufweisen würden, da sie lediglich bekannte Datenfelder ausfüllen.

Das Fazit

Der Artikel argumentiert, dass wir aufhören müssen, KI wie eine einfache Maschine zu behandeln. Wir benötigen neue Werkzeuge, die verstehen, dass KI unvorhersehbar ist, sich über die Zeit verändert und unsicher ist.

Der Autor gibt zu, dass dies nur eine neue Karte ist; er ist noch nicht mit echten Reisenden auf die Reise gegangen. Er hofft, dass Forscher in Zukunft diese drei Werkzeuge nutzen werden, um KI-Produkte tatsächlich mit echten Menschen zu testen, damit wir endlich die Erfahrung des Gesprächs mit einer Maschine so messen können, wie sie wirklich ist: ein dynamisches, sich entwickelndes Gespräch und kein festes Knopfdrücken.

Technisches Fazit: UX im Zeitalter der KI: Neubewertung von Evaluierungsmetriken durch eine statistische Linse

Problemstellung

Die rasche Integration künstlicher Intelligenz (KI) in kundenorientierte digitale Produkte hat klassische Frameworks zur Bewertung der User Experience (UX) strukturell unzureichend gemacht. Bestehende Metriken wie die System Usability Scale (SUS), der Net Promoter Score (NPS) und Aufgabenabschlussraten wurden für deterministische, regelbasierte Schnittstellen entwickelt, bei denen identische Eingaben identische Ausgaben erzeugen. Im Gegensatz dazu operieren KI-vermittelte Systeme – einschließlich konversationaler Agenten, generativer Schnittstellen und Empfehlungsmaschinen – als stochastische, kontextsensitive und zeitlich variable Systeme. In diesen Umgebungen kann eine einzelne Abfrage mehrere unterschiedliche Antworten hervorrufen, und die Nutzerzufriedenheit ist ein probabilistisches Phänomen statt eines festen Zustands. Folglich erfassen bestehende Instrumente, die auf Annahmen der Test-Retest-Reliabilität und Schnittstellenstabilität basieren, die inhärente Unvorhersehbarkeit und die longitudinale Evolution KI-gesteuerter User Experiences nicht.

Methodik: Das ADUX-Stat-Framework

Um diese epistemische Lücke zu schließen, schlägt die Arbeit das Adaptive Dynamic UX Statistical Framework (ADUX-Stat) vor. Dieses Modell konzeptualisiert Usability nicht als statischen skalaren Wert, sondern als Wahrscheinlichkeits-Signaldistribution. Das Framework integriert drei originäre statistische Konstrukte, die darauf ausgelegt sind, unterschiedliche Dimensionen des Verhaltens von KI-Schnittstellen zu messen:

Interaction Entropy Index (IEI):
- Zweck: Quantifiziert den Grad der wahrgenommenen Output-Variabilität aus der Perspektive des Nutzers.
- Mechanismus: Basierend auf Shannons Informationstheorie behandelt der IEI Nutzerzufriedenheitsantworten als Wahrscheinlichkeitsverteilung über einem diskreten Antwortraum.
- Formel: $IEI = -\sum p(r) \log_2 p(r)$ , wobei $p(r)$ die Wahrscheinlichkeit einer bestimmten Zufriedenheitsbewertung $r$ ist.
- Interpretation: Ein hoher IEI deutet auf eine breite Verteilung der Nutzerantworten (hohe Unvorhersehbarkeit) hin, während ein niedriger IEI konvergierende Antworten (Vorhersehbarkeit) anzeigt.
Temporal Drift Coefficient (TDC):
- Zweck: Misst die Rate und Richtung der Veränderung der wahrgenommenen Usability über longitudinale Interaktionssitzungen hinweg.
- Mechanismus: Operationalisiert Usability als Zeitreihenvariable unter Verwendung linearer Regression, um systematische Verbesserungen oder Verschlechterungen zu erkennen, während sich das KI-System entwickelt.
- Formel: $TDC = \beta_1$ in der Gleichung $U(t) = \beta_0 + \beta_1t + \epsilon(t)$ , wobei $U(t)$ der mittlere Usability-Wert zum Zeitpunkt $t$ ist.
- Interpretation: Ein positives $\beta_1$ signalisiert eine Verbesserung der UX über die Zeit; ein negatives $\beta_1$ signalisiert eine Verschlechterung. Eine stabile Schätzung erfordert mindestens fünf longitudinale Messpunkte.
Bayesian Usability Confidence Score (BUCS):
- Zweck: Ersetzt Punktschätzungs-Paradigmen durch probabilistische Bereiche, um Messunsicherheit anzuerkennen.
- Mechanismus: Verwendet ein Beta-Binomial-Modell für Aufgabenabschlussbewertungen. Es aktualisiert eine Prior-Verteilung (z. B. nicht-informativ Beta(1,1)) mit beobachteten Daten, um eine Posterior-Verteilung zu generieren.
- Ausgabe: Berichtet das 95%-Highest-Density-Intervall (HDI) der Posterior-Verteilung und liefert so ein glaubwürdiges Intervall plausibler Usability-Werte anstelle eines einzelnen Punktwerts.

Hauptergebnisse (Konzeptuelle Validierung)

Die Arbeit validiert ADUX-Stat durch eine konzeptuelle Anwendung über fünf KI-Produktkategorien hinweg: (1) LLM-basierte konversationale Assistenten, (2) KI-gestützte Empfehlungsmaschinen für Inhalte, (3) generative Bildschnittstellen, (4) Sprachassistenten und (5) intelligente Systeme zur automatischen Formularausfüllung.

Diskriminierende Validität des IEI: Das Framework unterschied erfolgreich zwischen Produkttypen. Konversationale Assistenten und generative Bildschnittstellen wiesen hohe IEI-Werte auf (hohe Unvorhersehbarkeit), Empfehlungsmaschinen zeigten moderate IEI-Werte, und strukturierte Systeme zur automatischen Formularausfüllung demonstrierten niedrige IEI-Werte.
Sensitivität des TDC: Das Modell stimmte mit Literatur überein, die nahelegt, dass konversationelle KI in der frühen Einsatzphase oft eine negative Drift aufweist (aufgrund von Lernkurven), gefolgt von einer positiven Drift, sobald die Personalisierung verbessert wird. Empfehlungsmaschinen zeigten eine konsistente positive Drift, während Sprachassistenten eine hohe Sensitivität gegenüber Umgebungsvariablen aufwiesen.
Unsicherheitspropagation durch BUCS: Bei Anwendung auf Daten zur Aufgabenabschlussrate erzeugte BUCS 95%-HDI, die erheblich breiter waren als frequentistische Konfidenzintervalle für dieselben Daten (unter Verwendung nicht-informativer Priors). Dies spiegelt eine „ehrliche" Unsicherheitspropagation wider, wobei die Intervalle mit zunehmender simulierter Stichprobengröße vorhersehbar schmaler wurden.

Bedeutung und Behauptungen

Die Arbeit behauptet, ADUX-Stat biete eine notwendige statistische Neuausrichtung für das Feld der UX-Forschung und adressiere eine kritische Lücke an der Schnittstelle von HCI, statistischer Modellierung und KI-Produktevaluation. Ihre Bedeutung wird durch drei Kernmerkmale definiert:

Epistemische Ehrlichkeit: Im Gegensatz zu klassischen Metriken, die durch skalare Punktwerte eine falsche Präzision suggerieren, nutzt ADUX-Stat glaubwürdige Intervalle und Entropieverteilungen, um die inhärente Unsicherheit der KI-Evaluation anzuerkennen.
Temporale Sensitivität: Das Framework behandelt die UX-Qualität in KI-Systemen als Trajektorie und nicht als statischen Zustand und behauptet, dass longitudinale Messungen für eine valide Evaluation epistemologisch notwendig sind.
Nutzerwahrnehmungs-Zentrierung: Der IEI misst Entropie so, wie sie von Nutzern erfahren wird, und nicht so, wie sie aus Systemprotokollen berechnet wird, wodurch die phänomenologische Ausrichtung der UX-Forschung bewahrt und gleichzeitig statistische Strenge integriert wird.

Die Autoren positionieren ADUX-Stat als eine reproduzierbare, in der Praxis einsetzbare Methodik, die unter Verwendung standardmäßiger statistischer Software in bestehende Arbeitsabläufe integriert werden kann und als Ergänzung zu etablierten Instrumenten wie der SUS dient.

Einschränkungen und zukünftige Richtungen

Die Arbeit nimmt eine bescheidene Haltung bezüglich ihres aktuellen Umfangs ein. Sie erkennt ausdrücklich an, dass die präsentierte Validierung konzeptioneller Natur ist und keine kontrollierten experimentellen Studien mit realen Nutzerpopulationen ersetzt. Die Autoren stellen fest, dass zukünftige Arbeiten Folgendes leisten müssen:

Normbereiche für IEI, TDC und BUCS über Produktkategorien hinweg zu etablieren.
Standardisierte Erhebungsverfahren zu entwickeln.
Die Inter-Rater-Reliabilität über Evaluatorenkohorten hinweg zu bewerten.
Empirische Validierungen durchzuführen, um die Wirksamkeit des Frameworks in realen Umgebungen zu bestätigen.

UX in the Age of AI: Rethinking Evaluation Metrics Through a Statistical Lens