Learning Next Action Predictors from Human-Computer Interaction

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een digitale assistent hebt die niet alleen luistert naar wat je zegt, maar ook weet wat je gaat doen voordat je het zelf weet.

Dit is het verhaal van een nieuw onderzoek van Stanford University, genaamd LongNAP. Het is als het hebben van een zeer attent vriendje die je al jaren kent, je gewoontes kent en altijd precies de juiste koffie voor je zet voordat je erom vraagt.

Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Probleem: De "Gaten in de Muur"

Vandaag de dag zijn slimme AI's (zoals chatbots) als mensen die door een gaten in de muur kijken. Ze zien alleen wat je typt in je chatvenster. Ze weten niet wat je net hebt gedaan, wat je op je scherm zag, of welke gedachten je had. Ze weten niet wie je bent of wat je doelen zijn. Ze reageren alleen op wat je nu zegt, niet op wie je bent.

2. De Oplossing: Een "Digitale Spiegel"

De onderzoekers wilden een AI bouwen die je echt begrijpt. Ze noemen dit Next Action Prediction (Voorspellen van de volgende stap).
Stel je voor: je kijkt naar een e-mail, leest een artikel en krijgt een melding. Een slimme AI zou moeten kunnen zeggen: "Ah, je kijkt naar dit artikel, dus je gaat waarschijnlijk nu je collega's een berichtje sturen om het werk te verdelen."

Om dit te leren, moesten ze de AI laten kijken naar alles wat je doet op je telefoon of computer: screenshots, muisklikken, scrollen.

3. De Verzamelaar: NAPsack (De Stille Observer)

Het grootste probleem was: hoe leer je een AI wat mensen doen zonder dat mensen urenlang moeten uitleggen wat ze doen? Dat is te veel werk.

Ze bedachten NAPsack.

De Analogie: Stel je voor dat NAPsack een stille, onzichtbare cameraman is die je telefoon gebruikt. Hij maakt geen video's van je gezicht (dat is privé), maar hij maakt foto's van je scherm en noteert waar je op klikt.
De Slimme Vertaler: Deze camera's sturen de beelden naar een super-slimme vertaler (een Vision-Language Model). Deze vertaler kijkt naar de foto's en zegt: "Oh, de gebruiker opende de 'Downloads'-map en klikte op een bestand."
Het Resultaat: Ze hebben dit gedaan voor 20 mensen, gedurende een maand. Dat zijn 1.800 uur aan schermgebruik en 360.000 geautomatiseerde beschrijvingen van wat mensen deden. Niemand hoefde hier actief aan mee te werken; het gebeurde gewoon in de achtergrond.

4. De Leerling: LongNAP (De Geheugen-Boer)

Nu hadden ze de data, maar hoe leer je de AI hieruit?
Een simpele AI zou alles in zijn hoofd proberen te onthouden (zoals een olifant die alles probeert te onthouden). Maar dat werkt niet goed als je duizenden dingen doet.

Daarom hebben ze LongNAP bedacht. Dit werkt in twee stappen, als een detective met een archief:

Stap 1: "Wat heb ik eerder gezien?" (Retrieven)
De AI kijkt naar wat je nu doet (bijvoorbeeld: je kijkt naar een moeilijke tekst). Dan zegt de AI: "Wacht even, ik heb dit eerder gezien!" en zoekt in zijn digitale archief naar momenten waarop je eerder met zo'n tekst zat.
- Analogie: Het is alsof je een boek leest en plotseling zegt: "Oh, dit herinnert me aan die keer dat ik in het café zat en een vriend belde." De AI haalt dat oude geheugen op.
Stap 2: "Wat ga ik nu doen?" (Voorspellen)
Met dat oude geheugen in gedachten, zegt de AI: "Oké, de vorige keer dat je zo'n tekst las, heb je je collega's gebeld. Dus nu ga je dat waarschijnlijk ook doen."

De AI leert door te proberen en te corrigeren. Als hij goed raadt wat je doet, krijgt hij een beloning. Als hij fout zit, leert hij ervan.

5. De Resultaten: Hoe goed is het?

Ze hebben getest of LongNAP beter is dan andere methoden:

Beter dan "gewoon vragen": Als je een AI gewoon vraagt "Wat ga ik doen?", raadt hij het vaak verkeerd.
Beter dan "leren uit boeken": Als je een AI gewoon laat oefenen met duizenden voorbeelden (zonder geheugen), is hij ook niet zo goed.
Het succes: LongNAP was 79% beter dan de beste standaardmethode.
- Van elke 10 keer dat de AI voorspelde wat je zou doen, had hij er 1,7 keer precies goed (en bij de meest zekerste voorspellingen zelfs 2,6 keer).
- Dat klinkt misschien niet als 100%, maar bedenk dat er duizenden dingen zijn die je zou kunnen doen. Het feit dat hij er zo dichtbij komt, is een enorme stap.

6. Waarom is dit belangrijk?

Dit is de eerste stap naar proactieve AI.

Vandaag: Je moet zelf alles doen. Je opent je agenda, je opent je mail, je zoekt je bestanden.
Morgen (met LongNAP): De AI ziet dat je een vergadering hebt, ziet dat je de presentatie nog niet klaar hebt, en zegt: "Wil je dat ik die presentatie voor je open en je de laatste cijfers erin zet?" voordat je het zelf bedenkt.

Conclusie

Dit onderzoek toont aan dat we AI's niet alleen hoeven te leren wat we zeggen, maar ook wat we doen. Door een "stille cameraman" (NAPsack) en een "detective met archief" (LongNAP) te gebruiken, kunnen we AI's bouwen die ons echt begrijpen en ons helpen voordat we het zelf weten.

Het is alsof je een assistent krijgt die niet alleen luistert, maar ook kijkt en denkt met je mee.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Learning Next Action Predictors from Human-Computer Interaction" in het Nederlands.

Titel: Learning Next Action Predictors from Human-Computer Interaction

Auteurs: Omar Shaikh et al. (Stanford University, Hasso Plattner Institute, NYU)

1. Het Probleem: De Beperking van Huidige AI-systemen

Huidige taalmodellen (LLM's) zijn beperkt tot een "smalle sleutelgat"-visie op gebruikersinteractie. Ze zien voornamelijk de prompts die gebruikers invoeren en kunnen instructies volgen, maar ze missen de bredere context van wat gebruikers zien en doen op hun apparaten.

De uitdaging: Om echt proactief te zijn, moet AI anticiperen op wat een gebruiker als volgende zal doen. Dit vereist redeneren over de volledige multimodale context (screenshots, klikken, toetsaanslagen, sensordata) en niet alleen over expliciete instructies.
Definitie: De auteurs formaliseren dit als Next Action Prediction (NAP): gegeven een sequentie van multimodale interacties van een gebruiker, voorspel de volgende actie van die specifieke gebruiker.
Huidige tekortkomingen:
- Data is schaars: het handmatig annoteren van gedetailleerde gebruikersgedragingen is duur en onpraktisch.
- Modellen worstelen met "latent learning": parametrische modellen (fine-tuning) kunnen nieuwe informatie niet direct gebruiken zonder hertraining, en contextvensters zijn te klein om de volledige geschiedenis van een gebruiker te bevatten.

2. Methodologie

De paper introduceert een tweeledige aanpak: een nieuw dataset-annotatieproces en een nieuw modelarchitectuur.

A. Data Collectie en Annotatie: NAPsack

Om NAP mogelijk te maken, hebben de auteurs NAPsack ontwikkeld, een passieve pipeline voor het verzamelen en annoteren van interactiedata zonder actieve inspanning van de gebruiker.

Data Bron: Ze gebruikten bestaande data van het Screenomics-project (1,9 miljoen screenshots van 20 gebruikers over een maand, totaal 1.800 uur schermtijd).
Verwerking:
1. Compressie: In plaats van elke frame op te slaan, worden alleen frames vastgelegd rondom interactie-uitbarstingen (bursts) van muis, toetsenbord of scroll-acties.
2. Annotatie: Een Vision-Language Model (VLM) analyseert de screenshots en geassocieerde I/O-gebeurtenissen om deze te vertalen naar natuurlijke taal-acties (bijv. "Klikte op de 'Downloads'-map").
3. Resultaat: Een dataset van >360.000 geannoteerde acties.
Validatie: Een LLM-as-a-judge (Gemini 3.0 Flash) beoordeelt de kwaliteit van de gegenereerde annotaties door ze te vergelijken met menselijke grondwaarheid. De beste configuratie (splitting + compressie + I/O data) bereikte een similariteitsscore van 0,70.

B. Het Model: LongNAP (Long-context Next Action Predictor)

LongNAP is een model dat combineert parametrisch leren met in-context learning en retrieval om lange interactiegeschiedenissen te redeneren. Het werkt in twee fasen, getraind via Policy Gradient (GRPO):

Fase 1: Redeneren om op te halen (Reasoning to Retrieve):
- Het model analyseert de huidige context en genereert een "redeneringstrace" (chain-of-thought).
- Deze trace fungeert als query voor een lexicaal retriever (BM25) die zoekt in een geheugenbank ( $M_t$ ) van eerdere observaties en redeneringen van dezelfde gebruiker.
- Voorbeeld: Als de gebruiker paper-reviews leest, haalt het model een oude trace op die aangeeft dat deze gebruiker vaak Slack gebruikt om co-auteurs te contacteren.
Fase 2: Redeneren om te voorspellen (Reasoning to Predict):
- Het model integreert de opgehaalde traces met de huidige context om een verfijnde redenering te genereren en de volgende acties te voorspellen.
- De beste voorspelling (gebaseerd op beloning) wordt teruggevoerd naar het geheugen voor toekomstig gebruik.

Training & Beloning:

Temporal Reward: Omdat de grondwaarheid (wat de gebruiker echt doet) bekend is na de gebeurtenis, wordt een LLM-as-a-judge gebruikt om de semantische similariteit tussen de voorspelde en de werkelijke toekomstige acties te meten (score 0-1).
Optimalisatie: Het model wordt end-to-end getraind met GRPO (Group Relative Policy Optimization) om de redenering, het ophalen en de voorspelling te optimaliseren.

3. Belangrijkste Bijdragen

NAPsack: Een open-source pipeline voor passieve, schaalbare annotatie van mens-computerinteracties met VLM's, wat leidt tot een dataset van 1.800 uur schermtijd.
LongNAP: Een nieuw modelarchitectuur dat redeneren, retrieval en in-context learning combineert om next-action predictions te doen over lange, multimodale geschiedenissen.
Empirische Validatie: Uitgebreide evaluaties tonen aan dat dit een haalbare taak is, met significante prestaties boven bestaande baselines.

4. Resultaten

De evaluaties werden uitgevoerd op 20 gebruikers (1.800 uur data) in twee scenario's: generalisatie over tijd (zelfde gebruiker) en generalisatie naar nieuwe gebruikers.

Generalisatie over tijd (Single User):
- LongNAP presteert 79% beter dan Supervised Fine-Tuning (SFT) op Qwen-2.5-VL-7B.
- LongNAP presteert 39% beter dan de sterkste prompt-baseline (Few-shot RAG met Gemini 3.0 Flash).
- Menselijke evaluatie bevestigt dit: LongNAP wint in 79% van de gevallen tegenover andere methoden.
Generalisatie naar nieuwe gebruikers (Cross-User):
- Wanneer getraind op meerdere gebruikers, generaliseert LongNAP naar nieuwe gebruikers en presteert het 13% beter dan de beste prompt-baseline.
- Hoewel de verbetering kleiner is dan bij single-user training, bewijst het dat het model algemene patronen kan leren.
Nauwkeurigheid:
- 17,1% van de voorspelde trajecten heeft een hoge similariteit (score ≥ 0,5) met de werkelijke actie.
- Bij filtering op hoge modelzekerheid (90e percentiel) stijgt dit naar 26%.
- Pass@k: Bij het genereren van 20 samples (pass@20) stijgt de succeskans naar 36,3%.
Ablatie Studies:
- Het verwijderen van de redeneringscomponent leidt tot een daling van 19,2% in prestaties.
- Het verwijderen van de retriever leidt tot een daling van 15,2%.
- Dit bevestigt dat zowel het genereren van redeneringen als het ophalen van relevante geschiedenis cruciaal zijn.

5. Betekenis en Toekomstperspectief

Haalbaarheid: De paper toont aan dat het leren van volledige gebruikerscontext om behoeften te anticiperen een haalbare en veelbelovende richting is voor AI.
Privacy: De auteurs benadrukken dat dit soort modellen privacy-risico's met zich meebrengen. Ze pleiten voor decentrale oplossingen (on-device training) en het gebruik van lokale modellen om gevoelige data te beschermen.
Toepassingen:
- Proactieve Assistenten: Systemen die taken voltooien voordat de gebruiker ze vraagt (bijv. het opzetten van een vergadering zodra een uitnodiging wordt gelezen).
- Online Leren: De introductie van powerNAP, een versie die continu leert van nieuwe data zonder offline trainingcycli.
Beperkingen: Het model is afhankelijk van VLM-annotaties (die fouten kunnen bevatten) en redeneert alleen op basis van schermdata, wat een beperkte proxy is voor de volledige context van een gebruiker.

Conclusie: LongNAP markeert een stap voorwaarts van reactieve AI naar proactieve, contextbewuste systemen die gedetailleerde patronen in menselijk gedrag kunnen leren en voorspellen, met aanzienlijke verbeteringen ten opzichte van bestaande methoden.