Learning Next Action Predictors from Human-Computer Interaction

Dit paper introduceert LongNAP, een model dat multimodale gebruikersinteracties analyseert om de volgende actie te voorspellen, en toont aan dat het door het combineren van parametrisch en in-context leren significant beter presteert dan bestaande methoden.

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang

Gepubliceerd Mon, 09 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een digitale assistent hebt die niet alleen luistert naar wat je zegt, maar ook weet wat je gaat doen voordat je het zelf weet.

Dit is het verhaal van een nieuw onderzoek van Stanford University, genaamd LongNAP. Het is als het hebben van een zeer attent vriendje die je al jaren kent, je gewoontes kent en altijd precies de juiste koffie voor je zet voordat je erom vraagt.

Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Probleem: De "Gaten in de Muur"

Vandaag de dag zijn slimme AI's (zoals chatbots) als mensen die door een gaten in de muur kijken. Ze zien alleen wat je typt in je chatvenster. Ze weten niet wat je net hebt gedaan, wat je op je scherm zag, of welke gedachten je had. Ze weten niet wie je bent of wat je doelen zijn. Ze reageren alleen op wat je nu zegt, niet op wie je bent.

2. De Oplossing: Een "Digitale Spiegel"

De onderzoekers wilden een AI bouwen die je echt begrijpt. Ze noemen dit Next Action Prediction (Voorspellen van de volgende stap).
Stel je voor: je kijkt naar een e-mail, leest een artikel en krijgt een melding. Een slimme AI zou moeten kunnen zeggen: "Ah, je kijkt naar dit artikel, dus je gaat waarschijnlijk nu je collega's een berichtje sturen om het werk te verdelen."

Om dit te leren, moesten ze de AI laten kijken naar alles wat je doet op je telefoon of computer: screenshots, muisklikken, scrollen.

3. De Verzamelaar: NAPsack (De Stille Observer)

Het grootste probleem was: hoe leer je een AI wat mensen doen zonder dat mensen urenlang moeten uitleggen wat ze doen? Dat is te veel werk.

Ze bedachten NAPsack.

  • De Analogie: Stel je voor dat NAPsack een stille, onzichtbare cameraman is die je telefoon gebruikt. Hij maakt geen video's van je gezicht (dat is privé), maar hij maakt foto's van je scherm en noteert waar je op klikt.
  • De Slimme Vertaler: Deze camera's sturen de beelden naar een super-slimme vertaler (een Vision-Language Model). Deze vertaler kijkt naar de foto's en zegt: "Oh, de gebruiker opende de 'Downloads'-map en klikte op een bestand."
  • Het Resultaat: Ze hebben dit gedaan voor 20 mensen, gedurende een maand. Dat zijn 1.800 uur aan schermgebruik en 360.000 geautomatiseerde beschrijvingen van wat mensen deden. Niemand hoefde hier actief aan mee te werken; het gebeurde gewoon in de achtergrond.

4. De Leerling: LongNAP (De Geheugen-Boer)

Nu hadden ze de data, maar hoe leer je de AI hieruit?
Een simpele AI zou alles in zijn hoofd proberen te onthouden (zoals een olifant die alles probeert te onthouden). Maar dat werkt niet goed als je duizenden dingen doet.

Daarom hebben ze LongNAP bedacht. Dit werkt in twee stappen, als een detective met een archief:

  1. Stap 1: "Wat heb ik eerder gezien?" (Retrieven)
    De AI kijkt naar wat je nu doet (bijvoorbeeld: je kijkt naar een moeilijke tekst). Dan zegt de AI: "Wacht even, ik heb dit eerder gezien!" en zoekt in zijn digitale archief naar momenten waarop je eerder met zo'n tekst zat.

    • Analogie: Het is alsof je een boek leest en plotseling zegt: "Oh, dit herinnert me aan die keer dat ik in het café zat en een vriend belde." De AI haalt dat oude geheugen op.
  2. Stap 2: "Wat ga ik nu doen?" (Voorspellen)
    Met dat oude geheugen in gedachten, zegt de AI: "Oké, de vorige keer dat je zo'n tekst las, heb je je collega's gebeld. Dus nu ga je dat waarschijnlijk ook doen."

De AI leert door te proberen en te corrigeren. Als hij goed raadt wat je doet, krijgt hij een beloning. Als hij fout zit, leert hij ervan.

5. De Resultaten: Hoe goed is het?

Ze hebben getest of LongNAP beter is dan andere methoden:

  • Beter dan "gewoon vragen": Als je een AI gewoon vraagt "Wat ga ik doen?", raadt hij het vaak verkeerd.
  • Beter dan "leren uit boeken": Als je een AI gewoon laat oefenen met duizenden voorbeelden (zonder geheugen), is hij ook niet zo goed.
  • Het succes: LongNAP was 79% beter dan de beste standaardmethode.
    • Van elke 10 keer dat de AI voorspelde wat je zou doen, had hij er 1,7 keer precies goed (en bij de meest zekerste voorspellingen zelfs 2,6 keer).
    • Dat klinkt misschien niet als 100%, maar bedenk dat er duizenden dingen zijn die je zou kunnen doen. Het feit dat hij er zo dichtbij komt, is een enorme stap.

6. Waarom is dit belangrijk?

Dit is de eerste stap naar proactieve AI.

  • Vandaag: Je moet zelf alles doen. Je opent je agenda, je opent je mail, je zoekt je bestanden.
  • Morgen (met LongNAP): De AI ziet dat je een vergadering hebt, ziet dat je de presentatie nog niet klaar hebt, en zegt: "Wil je dat ik die presentatie voor je open en je de laatste cijfers erin zet?" voordat je het zelf bedenkt.

Conclusie

Dit onderzoek toont aan dat we AI's niet alleen hoeven te leren wat we zeggen, maar ook wat we doen. Door een "stille cameraman" (NAPsack) en een "detective met archief" (LongNAP) te gebruiken, kunnen we AI's bouwen die ons echt begrijpen en ons helpen voordat we het zelf weten.

Het is alsof je een assistent krijgt die niet alleen luistert, maar ook kijkt en denkt met je mee.