Learning Next Action Predictors from Human-Computer Interaction

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un assistant personnel numérique qui ne se contente pas d'attendre vos ordres, mais qui devine ce que vous allez faire avant même que vous ne le fassiez. C'est l'objectif de cette recherche intitulée "Learning Next Action Predictors" (Apprendre à prédire la prochaine action).

Voici une explication simple de ce papier, imagée pour mieux comprendre :

1. Le Problème : Les IA actuelles sont aveugles

Aujourd'hui, les intelligences artificielles (comme les chatbots) sont un peu comme des chefs cuisiniers qui ne voient que ce qu'on leur met dans le bol. Si vous leur dites "Fais-moi une salade", elles le font. Mais elles ne savent pas que vous avez passé la matinée à regarder des recettes de salades, que vous avez faim, ou que vous êtes pressé. Elles ne connaissent pas votre histoire, vos habitudes, ni ce que vous avez vu juste avant.

Les chercheurs veulent créer une IA qui vous connaît vraiment. Une IA qui, en voyant que vous avez ouvert trois fois votre agenda, devine que vous allez probablement envoyer un email à votre collègue pour fixer une réunion, et vous propose de le faire tout de suite.

2. La Solution : "LongNAP" (Le Devin)

Pour y arriver, ils ont créé un modèle appelé LongNAP. Imaginez-le comme un détective très observateur qui a deux super-pouvoirs :

Il a une mémoire infinie (mais intelligente) : Au lieu de tout stocker dans sa tête (ce qui ferait exploser son cerveau), il a un grand classeur de souvenirs. Quand il doit prédire votre prochaine action, il ne regarde pas seulement ce qui se passe maintenant, il va chercher dans son classeur des moments similaires du passé.
- Exemple : Si vous ouvrez un document difficile, le détective se souvient : "Ah, la dernière fois que ce gars a vu un document difficile, il a appelé son ami Paul pour l'aider." Il va donc chercher cette information dans son classeur pour faire sa prédiction.
Il apprend en regardant : Il ne vous demande pas de lui dire ce que vous faites. Il vous regarde travailler (sur votre téléphone ou ordinateur) et apprend tout seul vos habitudes.

3. Comment ont-ils appris au détective ? (Le projet NAPsack)

Pour entraîner ce détective, il fallait des milliers d'heures d'observation. Mais demander à des gens de noter manuellement chaque clic de souris serait impossible (et ennuyeux !).

Alors, ils ont inventé un outil appelé NAPsack.

L'analogie : Imaginez un caméra de surveillance automatique qui enregistre votre écran. Mais au lieu de juste filmer, elle utilise un "cerveau artificiel" (une IA visuelle) pour regarder les vidéos et écrire des légendes en temps réel.
Ce qu'elle fait : Elle voit que vous avez cliqué sur "Télécharger", puis ouvert un dossier, et elle écrit : "L'utilisateur a téléchargé un fichier et l'a rangé dans le dossier 'Projets'".
Ils ont utilisé cet outil sur 20 personnes pendant un mois. Résultat : 1 800 heures d'activité humaine annotées automatiquement, sans que les utilisateurs aient eu à faire le moindre effort !

4. Les Résultats : Ça marche !

Ils ont testé ce détective (LongNAP) et les résultats sont impressionnants :

Mieux que les autres : Il devine la prochaine action beaucoup mieux que les IA classiques (qui doivent être "entraînées" de manière rigide) ou que les IA qui se contentent de lire vos instructions.
La précision : Sur 100 prédictions, environ 17 sont très justes (elles correspondent exactement à ce que la personne va faire). Si on ne garde que les prédictions où le détective est très confiant, ce taux monte à 26%.
L'adaptation : Il fonctionne bien même s'il n'a jamais vu cette personne avant, tant qu'il a appris sur d'autres utilisateurs.

5. Pourquoi c'est important ?

C'est comme passer d'un télécommande (où vous devez appuyer sur un bouton pour chaque action) à un voiture autonome (qui sait où vous voulez aller et y va toute seule).

Avant : Vous devez cliquer, taper, naviguer pour tout faire.
Avec LongNAP : L'IA peut dire : "Je vois que vous avez fini votre rapport, je vais déjà ouvrir votre boîte mail pour que vous puissiez l'envoyer."

6. Les précautions (La confidentialité)

Bien sûr, savoir tout ce que vous faites sur votre ordinateur pose des questions de vie privée.

Les chercheurs soulignent que tout cela doit se faire de manière sécurisée, idéalement directement sur votre appareil (votre téléphone ou ordinateur) pour que vos données ne quittent jamais votre maison.
L'idée est que l'IA vous aide, mais ne vous espionne pas pour vendre vos données.

En résumé

Cette recherche nous dit que nous sommes capables de créer des IA qui nous comprennent vraiment, en observant nos habitudes quotidiennes. Grâce à un outil automatique pour apprendre ces habitudes, nous pouvons bientôt avoir des assistants numériques qui ne nous demandent pas "Que voulez-vous faire ?", mais qui disent : "Je vois que vous êtes prêt à partir, voulez-vous que je lance la navigation GPS ?"

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du prépublications Learning Next Action Predictors from Human-Computer Interaction (Apprentissage de prédicteurs d'actions suivantes à partir de l'interaction homme-machine), rédigé en français.

1. Problématique et Contexte

Les systèmes d'IA proactifs actuels sont limités par leur incapacité à anticiper les besoins futurs des utilisateurs. Ils se basent principalement sur des signaux explicites et espacés (comme les invites de commande ou "prompts"), ignorant le contexte riche et continu de ce que l'utilisateur voit et fait sur son appareil.

Les auteurs formalisent ce défi sous la forme d'une tâche de Prédiction d'Action Suivante (NAP - Next Action Prediction). L'objectif est de prédire l'action future d'un utilisateur spécifique ( $\hat{E}_{t+1:t+h}$ ) étant donné une séquence temporelle de ses interactions multimodales passées ( $E_{t-k:t}$ ), incluant des captures d'écran, des clics, des frappes au clavier et des données de capteurs.

Les principaux défis identifiés sont :

Collecte de données : Obtenir des données comportementales longitudinales, naturelles et annotées à grande échelle sans effort actif de la part de l'utilisateur.
Modélisation : Apprendre à raisonner sur des historiques d'interactions longs et multimodaux, en surmontant les limites de la fenêtre de contexte des LLM et la difficulté d'apprentissage latent (mémoire paramétrique) pour des informations qui ne sont pertinentes que plus tard.

2. Méthodologie

La solution proposée repose sur deux piliers principaux : un pipeline de collecte de données passif et un modèle d'apprentissage hybride.

A. Collecte et Annotation de Données : NAPsack

Pour surmonter le manque de données annotées, les auteurs introduisent NAPsack, un pipeline open-source de collecte passive.

Fonctionnement : L'outil enregistre continuellement les captures d'écran et les événements d'E/S (souris, clavier) sur les appareils des utilisateurs.
Compression et Agrégation : Les événements sont regroupés en "bursts" (séries d'interactions adjacentes). Les captures d'écran sont compressées (seules les images avant/après une interaction sont conservées) pour réduire le stockage.
Annotation par VLM : Un modèle Vision-Language (VLM) agrège les séquences de captures d'écran et les événements d'E/S pour générer des descriptions d'actions en langage naturel (ex: "Clic sur le dossier Téléchargements").
Juge LLM : La qualité des annotations est évaluée en comparant les descriptions générées à des annotations humaines de référence, en utilisant un LLM (Gemini 3.0 Flash) comme juge pour calculer un score de similarité sémantique (0 à 1).

Jeu de données : Le pipeline a été utilisé pour annoter un mois d'utilisation de téléphone par 20 utilisateurs, générant 360 000 actions sur 1 800 heures d'écran (1,9 million de captures d'écran).

B. Modèle : LongNAP (Long-context Next Action Predictor)

Pour traiter ces historiques longs, les auteurs proposent LongNAP, un modèle qui combine l'apprentissage paramétrique et l'apprentissage en contexte (in-context learning) via un mécanisme de récupération (retrieval).

Architecture en deux phases :
1. Raisonnement pour la récupération (Reasoning to Retrieve) : Le modèle analyse le contexte actuel, génère un "trace de raisonnement" (chain-of-thought) qui sert de requête sémantique pour interroger une mémoire externe ( $M_t$ ) contenant des traces d'observations et de raisonnements passés de l'utilisateur.
2. Raisonnement pour la prédiction (Reasoning to Predict) : Le modèle intègre les traces récupérées pour affiner son raisonnement et prédire la séquence d'actions futures.
Mémoire et Apprentissage : La mémoire est mise à jour dynamiquement ; les traces de prédiction les plus performantes sont renvoyées dans la bibliothèque de mémoire.
Optimisation : Le modèle est entraîné de bout en bout via des algorithmes de gradient de politique (Policy Gradient), spécifiquement GRPO (Group Relative Policy Optimization).
Signal de Récompense Temporelle : Contrairement aux méthodes supervisées classiques, la récompense est calculée en attendant de voir ce que l'utilisateur fait réellement. Un LLM-juge compare la trajectoire prédite à l'action réelle observée, fournissant un signal de récompense pour l'optimisation.

3. Contributions Clés

NAPsack : Un pipeline open-source permettant la collecte et l'annotation passive de traces comportementales naturelles à grande échelle, éliminant le besoin d'annotation manuelle par les utilisateurs.
LongNAP : Un nouveau modèle capable de raisonner sur des historiques multimodaux infinis (en pratique, très longs) en récupérant activement des contextes pertinents, surpassant les approches purement paramétriques.
Jeu de données : La libération d'un jeu de données annoté de 360k actions provenant de 20 utilisateurs sur un mois.
Évaluation rigoureuse : Une méthodologie d'évaluation basée sur un LLM-juge et une validation humaine, démontrant la supériorité de l'approche par rapport aux baselines.

4. Résultats

Les expériences ont été menées sur 20 utilisateurs, avec des splits temporels (entraînement/validation/test) et des splits par utilisateur (entraînement multi-utilisateurs, test sur de nouveaux utilisateurs).

Performance sur un seul utilisateur (Single-User) :
- LongNAP surpasse significativement le Supervised Fine-Tuning (SFT) sur Qwen-2.5-VL-7B (+79% de performance).
- Il surpasse les baselines par prompting (Zero-shot et Few-shot) de 39% à 106%.
- Il bat également les modèles propriétaires fermés (Gemini 3.0 Flash) de 39% à 43%.
- Score de précision : 17,1% des trajectoires prédites sont bien alignées avec la réalité (score du juge LLM $\ge$ 0,5). Ce chiffre monte à 26% pour les prédictions à haute confiance.
Généralisation à de nouveaux utilisateurs (Cross-User) :
- Entraîné sur plusieurs utilisateurs, LongNAP généralise à de nouveaux utilisateurs non vus, surpassant les baselines de 13% (par rapport au meilleur baseline Few-shot RAG).
- Bien que les gains soient plus modestes que dans le cas mono-utilisateur, cela démontre la capacité du modèle à apprendre des stratégies générales de récupération et de raisonnement.
Analyse des Ablations :
- La suppression du composant de raisonnement entraîne une chute de performance de 19,2%.
- La suppression du récupérateur (retriever) réduit la performance de 15,2%.
- L'ordre chronologique des données d'entraînement est crucial ; mélanger les données dégrade les résultats.

5. Signification et Implications

Viabilité de la prédiction proactive : L'étude démontre qu'il est désormais possible d'apprendre à anticiper les besoins des utilisateurs en se basant sur l'intégralité de leur contexte comportemental, et non seulement sur leurs requêtes explicites.
Passage du "Sim-to-Real" : Contrairement aux modèles entraînés sur des données synthétiques ou des simulations, LongNAP apprend directement à partir de traces réelles d'interaction, réduisant l'écart entre la simulation et la réalité.
Applications potentielles :
- Assistants proactifs : Des agents capables d'anticiper les tâches (ex: diviser un travail, vérifier des métriques) avant même que l'utilisateur ne les demande.
- Apprentissage en ligne (Online Learning) : La version "powerNAP" permet un apprentissage continu et asynchrone, adaptant le modèle en temps réel aux changements de comportement de l'utilisateur.
Défis éthiques et vie privée : Les auteurs soulignent les risques liés à la confidentialité (données sensibles) et à l'alignement (risque de renforcer la procrastination ou les bulles de filtres). Ils proposent des solutions comme le traitement local (on-device), la découpure des données privées et l'ajustement des valeurs de l'IA pour éviter la sycophance.

En conclusion, ce travail pose les bases techniques pour une nouvelle génération d'IA personnelles capables de comprendre le contexte profond des utilisateurs et d'agir de manière proactive, en combinant des techniques avancées de récupération de contexte, de raisonnement et d'apprentissage par renforcement.