Learning Next Action Predictors from Human-Computer Interaction

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – ohne Fachchinesisch, aber mit ein paar guten Bildern.

Das große Ziel: Ein KI-Assistent, der wirklich mitdenkt

Stell dir vor, du hast einen persönlichen Assistenten. Bisher waren diese Assistenten wie blinde Passagiere. Du musstest ihnen sagen: „Hey, mach das!" oder „Hier ist eine Frage!". Sie wussten nichts davon, was du vorher gemacht hast, worüber du gestresst warst oder welche Gewohnheiten du hast. Sie sahen nur den Moment, in dem du mit ihnen sprichst.

Die Forscher von Stanford wollen das ändern. Sie bauen einen Assistenten, der proaktiv ist. Das bedeutet: Er weiß, was du als Nächstes tun wirst, bevor du es tust. Er kennt dich so gut, dass er dir hilft, noch bevor du überhaupt merkst, dass du Hilfe brauchst.

Das Problem: Zu viele Daten, zu wenig Zeit

Um so einen Assistenten zu bauen, braucht man Daten. Aber nicht nur ein paar Sätze, die du getippt hast. Man braucht zu sehen, wie du deinen ganzen Tag verbringst: Welche Apps du öffnest, welche Bilder du ansiehst, worauf du klickst.

Das Problem: Niemand möchte stundenlang aufschreiben, was er tut. Das wäre wie ein Tagebuch, das man jede Minute führt – viel zu anstrengend.

Die Lösung 1: Der unsichtbare Beobachter (NAPsack)

Die Forscher haben ein Werkzeug namens NAPsack entwickelt. Stell dir das wie einen sehr aufmerksamen, aber unauffälligen Fotografen vor, der auf deinem Handy oder Computer sitzt.

Wie es funktioniert: Er macht nicht ständig Fotos (das wäre zu viel Speicherplatz). Er macht nur dann ein Foto, wenn du etwas tust (z. B. einen Klick machst oder eine Taste drückst).
Der Trick: Ein künstliches Intelligenz-Modell (ein „VLM") schaut sich diese Fotos an und schreibt automatisch einen kurzen Satz dazu: „Omar hat die E-Mail geöffnet und dann auf den Anhang geklickt."
Das Ergebnis: Sie haben so über 1.800 Stunden Bildschirmzeit von 20 Menschen gesammelt und automatisch in eine riesige Bibliothek von „Was hat er gerade gemacht?"-Sätzen verwandelt. Alles passiv, ohne dass die Nutzer etwas tun mussten.

Die Lösung 2: Der Detektiv mit Gedächtnis (LongNAP)

Jetzt haben sie die Daten, aber wie lernt die KI daraus? Ein normales KI-Modell hat ein kurzes Arbeitsgedächtnis. Wenn du ihr sagst: „Ich habe vor drei Tagen ein Meeting gehabt", vergisst sie das oft, weil sie nur den aktuellen Text im Kopf hat.

Ihre neue KI, LongNAP, funktioniert wie ein erfahrener Detektiv mit einem riesigen Aktenordner.

Der Fall: Die KI sieht, was du gerade machst (z. B. du hast eine E-Mail mit einer schwierigen Aufgabe erhalten).
Die Akte: Statt alles im Kopf zu behalten, schaut sie in ihren Aktenordner (ihre Erinnerung). Sie sucht nach ähnlichen Situationen aus der Vergangenheit.
- Beispiel: „Ah, letztes Mal, als Omar so eine E-Mail bekam, hat er erst die Ergebnisse geprüft und dann seinen Kollegen auf Slack geschrieben."
Die Vorhersage: Basierend auf dieser alten Akte und dem aktuellen Bild sagt sie voraus: „Omar wird wahrscheinlich jetzt Slack öffnen und eine Nachricht schreiben."

Das Besondere: Die KI lernt nicht nur aus ihren Gewichten (wie ein Gehirn, das Dinge auswendig lernt), sondern sie sucht aktiv in ihrer Vergangenheit nach Mustern, die gerade passen. Sie nutzt also ihr „Langzeitgedächtnis", um den aktuellen Moment zu verstehen.

Was haben sie herausgefunden?

Die Ergebnisse sind beeindruckend:

Besser als die Konkurrenz: Wenn man LongNAP auf eine einzelne Person trainiert, ist sie viel besser darin, vorherzusagen, was diese Person als Nächstes tut, als herkömmliche KI-Modelle (die nur auf Befehle warten) oder Modelle, die einfach nur „aus dem Bauch heraus" raten.
Die Trefferquote: Da das Leben chaotisch ist, kann die KI nicht alles richtig vorhersagen. Aber: Wenn sie sich zu 100% sicher ist, trifft sie in 26 % der Fälle genau das Richtige. Das ist für so eine komplexe Aufgabe (tausende Möglichkeiten!) ein riesiger Erfolg.
Lernen von anderen: Wenn man die KI mit vielen verschiedenen Menschen trainiert, kann sie auch neue Leute verstehen, die sie noch nie gesehen hat. Sie lernt allgemeine menschliche Muster.

Warum ist das wichtig?

Stell dir vor, dein Handy weiß, dass du jeden Dienstagabend müde bist und gerne eine Serie startest. Anstatt dass du erst die App suchen musst, schlägt die KI dir vielleicht schon vor: „Möchtest du die neue Folge von X starten?" Oder sie weiß, dass du immer vergisst, den Bus zu nehmen, und schickt dir eine Erinnerung, bevor du überhaupt an den Bus denkst.

Das ist der Unterschied zwischen einem Werkzeug (das wartet, bis du es benutzt) und einem Partner (der mitdenkt).

Ein kleiner Warnhinweis (Privatsphäre)

Natürlich ist das ein zweischneidiges Schwert. Damit die KI so gut ist, muss sie alles über dich sehen. Das ist sehr privat. Die Forscher betonen, dass solche Systeme idealerweise lokal auf deinem Gerät laufen sollten, damit niemand deine Daten ausspioniert. Es ist wie ein Diener, der nur in deinem Haus arbeitet und nichts nach draußen bringt.

Fazit

Die Forscher haben gezeigt, dass es möglich ist, eine KI zu bauen, die nicht nur auf Befehle reagiert, sondern die ganze Geschichte deines digitalen Lebens versteht, um vorherzusagen, was du als Nächstes tun wirst. Sie haben den Weg geebnet für Assistenten, die uns wirklich verstehen – nicht nur das, was wir sagen, sondern das, was wir tun.

Learning Next Action Predictors from Human-Computer Interaction

Das große Ziel: Ein KI-Assistent, der wirklich mitdenkt

Das Problem: Zu viele Daten, zu wenig Zeit

Die Lösung 1: Der unsichtbare Beobachter (NAPsack)

Die Lösung 2: Der Detektiv mit Gedächtnis (LongNAP)

Was haben sie herausgefunden?

Warum ist das wichtig?

Ein kleiner Warnhinweis (Privatsphäre)

Fazit

1. Problemstellung: Next Action Prediction (NAP)

2. Methodik

A. Datensammlung und Annotation: NAPsack

B. Modellarchitektur: LongNAP

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Learning Next Action Predictors from Human-Computer Interaction

Das große Ziel: Ein KI-Assistent, der wirklich mitdenkt

Das Problem: Zu viele Daten, zu wenig Zeit

Die Lösung 1: Der unsichtbare Beobachter (NAPsack)

Die Lösung 2: Der Detektiv mit Gedächtnis (LongNAP)

Was haben sie herausgefunden?

Warum ist das wichtig?

Ein kleiner Warnhinweis (Privatsphäre)

Fazit

1. Problemstellung: Next Action Prediction (NAP)

2. Methodik

A. Datensammlung und Annotation: NAPsack

B. Modellarchitektur: LongNAP

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance