Oorspronkelijke auteurs: Harish Vijayakumar

Gepubliceerd 2026-05-08✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Harish Vijayakumar

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je de prestaties van een student moet beoordelen. In de oude tijden, als je een student vroeg een wiskundeprobleem op te lossen, zouden ze je altijd exact hetzelfde antwoord geven. Je kon ze een simpele score geven: "10 van de 10". Zo testten we vroeger computersoftware. We vroegen gebruikers op een knop te klikken, en als het werkte, kregen ze een punt. Als het niet werkte, kregen ze geen punt. Het systeem was voorspelbaar, net als een automaat die je altijd een frisdrank geeft als je op "A1" drukt.

Maar tegenwoordig zijn computers anders. Ze gebruiken Kunstmatige Intelligentie (KI). Een KI is geen automaat; het is meer als een praterige, creatieve vriend. Als je je vriend twee keer dezelfde vraag stelt, kunnen ze je twee licht verschillende antwoorden geven, afhankelijk van hun humeur, het tijdstip van de dag, of waar ze net over hadden gesproken.

Het probleem, volgens dit paper, is dat we nog steeds proberen deze "praterige vriend" te beoordelen met de oude "automaat"-tests. Het werkt niet. De oude tests gaan ervan uit dat de computer altijd hetzelfde doet, maar KI is rommelig, onvoorspelbaar en verandert in de tijd.

Om dit op te lossen, stelt de auteur, Harish Vijayakumar, een nieuwe manier voor om te meten hoe goed een KI aanvoelt om te gebruiken. Hij noemt het ADUX-Stat. In plaats van één enkel cijfer te geven, gebruikt dit nieuwe systeem drie "gereedschappen" om de persoonlijkheid van de KI te begrijpen.

Hier is hoe de drie gereedschappen werken, met eenvoudige analogieën:

1. De "Verrassingsmeter" (Interactie-entropie-index)

Het probleem: Soms is een KI behulpzaam en consistent. Op andere momenten is het wild en onvoorspelbaar. Als je een spraakassistent om het weer vraagt en het geeft je elke keer een ander antwoord, raak je gefrustreerd.
De oplossing: Dit gereedschap meet hoeveel de KI je "verrast".

Lage verrassing (Goed): De KI gedraagt zich als een betrouwbare bibliothecaris. Je vraagt om een boek en het geeft je altijd de juiste.
Hoge verrassing (Slecht of chaotisch): De KI gedraagt zich als een goochelaar die willekeurige konijnen uit een hoed trekt. Soms is het geweldig, soms is het onzin.
Dit gereedschap zegt niet alleen "het werkte"; het meet hoeveel het gedrag van de KI varieert vanuit jouw perspectief.

2. De "Tijdsreiskompas" (Temporele driftcoëfficiënt)

Het probleem: KI is niet statisch. Het leert. Een KI kan verschrikkelijk zijn als je het voor het eerst ontmoet, maar slimmer worden naarmate je meer met het praat. Of het kan geweldig beginnen en langzaam slechter worden naarmate het in de war raakt.
De oplossing: Dit gereedschap kijkt naar de prestaties van de KI in de tijd, alsof je een film bekijkt in plaats van één enkele foto.

Positieve drift: De KI wordt beter, zoals een student die hard studeert en zijn cijfers week na week verbetert.
Negatieve drift: De KI wordt slechter, zoals een motoren die na een paar maanden rare geluiden begint te maken.
Dit helpt ons te zien of de KI een "trage leerder" is of een "trage achteruitgang", iets wat een enkele test je nooit kan vertellen.

3. De "Eerlijkheidsbel" (Bayesiaanse bruikbaarheidsvertrouwensscore)

Het probleem: Oude tests geven je één enkel cijfer, zoals "85% tevredenheid". Maar dat cijfer voelt te precies. Het is alsof je zegt: "Ik ben precies 1,78 meter lang." In werkelijkheid hebben metingen fouten, en bij KI is er veel onzekerheid.
De oplossing: Dit gereedschap geeft je een bereik in plaats van één enkel cijfer. Het is alsof je zegt: "Ik ben waarschijnlijk tussen de 1,75 en 1,80 meter."

Het gebruikt een speciale wiskundige methode (Bayesiaanse statistiek) om toe te geven: "We zijn niet 100% zeker, maar dit is het meest waarschijnlijke bereik."
Als je niet veel data hebt, is het bereik breed (eerlijk over het niet weten). Als je veel data hebt, wordt het bereik smaller (meer vertrouwen).
Dit voorkomt dat we doen alsof we meer weten dan we eigenlijk doen.

Hoe ze het testten

De auteur heeft dit nog niet getest op echte mensen. In plaats daarvan deed hij een "gedachte-experiment". Hij stelde zich voor hoe deze drie gereedschappen zouden werken op vijf verschillende soorten KI-producten:

Chatbots: Hij voorspelde dat ze een hoge "Verrassing" zouden hebben omdat ze veel verschillende dingen kunnen zeggen.
Aanbevelingsmachines (zoals Netflix): Hij voorspelde dat ze in de tijd beter zouden worden ("Positieve drift") naarmate ze je smaak leren kennen.
Formulierinvullers: Hij voorspelde dat ze een lage "Verrassing" zouden hebben omdat ze gewoon bekende gegevensvelden invullen.

De conclusie

Het paper betoogt dat we moeten stoppen met KI te behandelen als een simpele machine. We hebben nieuwe gereedschappen nodig die begrijpen dat KI onvoorspelbaar is, in de tijd verandert en onzekerheid kent.

De auteur geeft toe dat dit slechts een nieuwe kaart is; hij is nog niet met echte reizigers op reis gegaan. Hij hoopt dat onderzoekers in de toekomst deze drie gereedschappen zullen gebruiken om KI-producten daadwerkelijk te testen met echte mensen, zodat we eindelijk de ervaring van het praten met een machine kunnen meten zoals het echt is: een dynamisch, evoluerend gesprek, en geen vaste knopdruk.

Technische Samenvatting: UX in het Tijdperk van AI: Evaluatiemetrics Heroverwegen door een Statistische Lens

Probleemstelling

De snelle integratie van kunstmatige intelligentie (AI) in digitale producten voor consumenten heeft klassieke User Experience (UX)-evaluatiekaders structureel ontoereikend gemaakt. Erfenismetrics zoals de System Usability Scale (SUS), Net Promoter Score (NPS) en taakvoltooiingspercentages zijn ontworpen voor deterministische, op regels gebaseerde interfaces waarbij identieke invoer identieke uitvoer oplevert. Daarentegen functioneren AI-gemedieerde systemen – waaronder conversatieagenten, generatieve interfaces en aanbevelingsmotoren – als stochastische, contextgevoelige en tijdsvariabele systemen. In deze omgevingen kan een enkele query meerdere verschillende antwoorden genereren, en is gebruikerstevredenheid een probabilistisch fenomeen in plaats van een vaste staat. Bijgevolg slagen bestaande instrumenten, die vertrouwen op aannames van test-hertest-reliabiliteit en interface-stabiliteit, er niet in de inherente onvoorspelbaarheid en longitudinale evolutie van door AI aangedreven gebruikerservaringen vast te leggen.

Methodologie: Het ADUX-Stat Kader

Om deze epistemische kloof aan te pakken, stelt het artikel het Adaptive Dynamic UX Statistical Framework (ADUX-Stat) voor. Dit model conceptualiseert bruikbaarheid niet als een statische scalair score, maar als een probabilistische signaalverdeling. Het kader integreert drie oorspronkelijke statistische constructen die zijn ontworpen om onderscheiden dimensies van AI-interfacegedrag te meten:

Interaction Entropy Index (IEI):
- Doel: Kwantificeert de mate van waargenomen uitvoervariabiliteit vanuit het perspectief van de gebruiker.
- Mechanisme: Puttend uit Shannons theorie van informatie-entropie, behandelt IEI gebruikerstevredenheidsreacties als een kansverdeling over een discrete responsruimte.
- Formule: $IEI = -\sum p(r) \log_2 p(r)$ , waarbij $p(r)$ de waarschijnlijkheid is van een specifieke tevredenheidsbeoordeling $r$ .
- Interpretatie: Een hoge IEI wijst op een brede verdeling van gebruikersreacties (hoge onvoorspelbaarheid), terwijl een lage IEI convergerende reacties aangeeft (voorspelbaarheid).
Temporal Drift Coefficient (TDC):
- Doel: Meet de snelheid en richting van verandering in waargenomen bruikbaarheid gedurende longitudinale interactiesessies.
- Mechanisme: Operationaliseert bruikbaarheid als een tijdreeksvariabele met behulp van lineaire regressie om systematische verbetering of degradatie te detecteren naarmate het AI-systeem evolueert.
- Formule: $TDC = \beta_1$ in de vergelijking $U(t) = \beta_0 + \beta_1t + \epsilon(t)$ , waarbij $U(t)$ de gemiddelde bruikbaarheidsscore is op tijdstip $t$ .
- Interpretatie: Een positieve $\beta_1$ signaleert een verbeterende UX in de loop van de tijd; een negatieve $\beta_1$ signaleert verslechtering. Een stabiele schatting vereist minimaal vijf longitudinale meetpunten.
Bayesian Usability Confidence Score (BUCS):
- Doel: Vervangt paradigmas van punt-schattingen door probabilistische intervallen om meetonzekerheid te erkennen.
- Mechanisme: Past een Beta-Binomiaal model toe voor beoordelingen van taakvoltooiing. Het werkt een a priori verdeling (bijvoorbeeld een niet-informatieve Beta(1,1)) bij met waargenomen data om een a posteriori verdeling te genereren.
- Output: Rapporteert het 95% Highest Density Interval (HDI) van de a posteriori verdeling, waardoor een betrouwbaar interval van plausibele bruikbaarheidswaarden wordt geboden in plaats van een enkele punt-schatting.

Belangrijkste Resultaten (Conceptuele Validatie)

Het artikel valideert ADUX-Stat door middel van een conceptuele toepassing over vijf AI-productcategorieën: (1) op LLM gebaseerde conversatieassistenten, (2) door AI aangedreven content-aanbevelingsmotoren, (3) generatieve beeldinterfaces, (4) spraakassistenten en (5) intelligente systemen voor automatische invulling van formulieren.

IEI Discriminante Validiteit: Het kader onderscheidde succesvol tussen producttypen. Conversatieassistenten en generatieve beeldinterfaces vertoonden hoge IEI-waarden (hoge onvoorspelbaarheid), aanbevelingsmotoren toonden een gemiddelde IEI, en gestructureerde systemen voor automatische invulling van formulieren vertoonden een lage IEI.
TDC Sensitiviteit: Het model liep overeen met literatuur die suggereert dat conversatie-AI vaak een negatieve drift vertoont in de vroege implementatiefase (vanwege leercurves), gevolgd door een positieve drift naarmate personalisatie verbetert. Aanbevelingsmotoren toonden een consistente positieve drift, terwijl spraakassistenten een hoge gevoeligheid voor omgevingsvariabelen vertoonden.
BUCS Onzekerheidspropagatie: Bij toepassing op data over taakvoltooiing produceerde BUCS 95% HDI's die aanzienlijk breder waren dan frequentistische betrouwbaarheidsintervallen op dezelfde data (met gebruik van niet-informatieve priors). Dit weerspiegelt "eerlijke" onzekerheidspropagatie, waarbij intervallen voorspelbaar smaller worden naarmate de gesimuleerde steekproefomvang toeneemt.

Betekenis en Claims

Het artikel claimt dat ADUX-Stat een noodzakelijke statistische heroriëntatie biedt voor het veld van UX-onderzoek, en een kritieke kloof aanpakt op het snijvlak van HCI, statistische modellering en AI-productevaluatie. De betekenis wordt gedefinieerd door drie kernkenmerken:

Epistemische Eerlijkheid: In tegenstelling tot klassieke metrics die valse precisie impliceren door middel van scalair punt-schattingen, maakt ADUX-Stat gebruik van betrouwbaarheidsintervallen en entropieverdelingen om de inherente onzekerheid van AI-evaluatie te erkennen.
Temporele Sensitiviteit: Het kader behandelt UX-kwaliteit in AI-systemen als een traject in plaats van een statische staat, en stelt dat longitudinale meting epistemologisch noodzakelijk is voor een geldige evaluatie.
Gebruikersperceptie-Centriciteit: De IEI meet entropie zoals ervaren door gebruikers in plaats van zoals berekend uit systeemlogs, waardoor de fenomenologische oriëntatie van UX-onderzoek behouden blijft terwijl statistische strengheid wordt geïntegreerd.

De auteurs positioneren ADUX-Stat als een reproduceerbare, in het veld inzetbare methodologie die kan worden geïntegreerd in bestaande workflows met behulp van standaard statistische software, en die dient als aanvulling op gevestigde instrumenten zoals de SUS.

Beperkingen en Toekomstige Richtingen

Het artikel neemt een bescheiden houding aan ten opzichte van de huidige reikwijdte. Het erkent expliciet dat de gepresenteerde validatie conceptueel is en geen vervanging vormt voor gecontroleerde experimentele studies met echte gebruikerspopulaties. De auteurs stellen dat toekomstig werk moet:

Normatieve bereiken vaststellen voor IEI, TDC en BUCS over productcategorieën heen.
Gestandaardiseerde procedures voor het afnemen van gegevens ontwikkelen.
Inter-rater betrouwbaarheid beoordelen tussen cohorts van beoordelaars.
Empirische validatie uitvoeren om de effectiviteit van het kader in reële situaties te bevestigen.

UX in the Age of AI: Rethinking Evaluation Metrics Through a Statistical Lens