Learning Next Action Predictors from Human-Computer Interaction

Ce papier présente LongNAP, un modèle d'apprentissage qui prédit les prochaines actions des utilisateurs en analysant leur historique d'interactions multimodales à long terme, surpassant significativement les méthodes existantes grâce à une combinaison d'apprentissage par renforcement et d'apprentissage en contexte.

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang

Publié Mon, 09 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un assistant personnel numérique qui ne se contente pas d'attendre vos ordres, mais qui devine ce que vous allez faire avant même que vous ne le fassiez. C'est l'objectif de cette recherche intitulée "Learning Next Action Predictors" (Apprendre à prédire la prochaine action).

Voici une explication simple de ce papier, imagée pour mieux comprendre :

1. Le Problème : Les IA actuelles sont aveugles

Aujourd'hui, les intelligences artificielles (comme les chatbots) sont un peu comme des chefs cuisiniers qui ne voient que ce qu'on leur met dans le bol. Si vous leur dites "Fais-moi une salade", elles le font. Mais elles ne savent pas que vous avez passé la matinée à regarder des recettes de salades, que vous avez faim, ou que vous êtes pressé. Elles ne connaissent pas votre histoire, vos habitudes, ni ce que vous avez vu juste avant.

Les chercheurs veulent créer une IA qui vous connaît vraiment. Une IA qui, en voyant que vous avez ouvert trois fois votre agenda, devine que vous allez probablement envoyer un email à votre collègue pour fixer une réunion, et vous propose de le faire tout de suite.

2. La Solution : "LongNAP" (Le Devin)

Pour y arriver, ils ont créé un modèle appelé LongNAP. Imaginez-le comme un détective très observateur qui a deux super-pouvoirs :

  • Il a une mémoire infinie (mais intelligente) : Au lieu de tout stocker dans sa tête (ce qui ferait exploser son cerveau), il a un grand classeur de souvenirs. Quand il doit prédire votre prochaine action, il ne regarde pas seulement ce qui se passe maintenant, il va chercher dans son classeur des moments similaires du passé.
    • Exemple : Si vous ouvrez un document difficile, le détective se souvient : "Ah, la dernière fois que ce gars a vu un document difficile, il a appelé son ami Paul pour l'aider." Il va donc chercher cette information dans son classeur pour faire sa prédiction.
  • Il apprend en regardant : Il ne vous demande pas de lui dire ce que vous faites. Il vous regarde travailler (sur votre téléphone ou ordinateur) et apprend tout seul vos habitudes.

3. Comment ont-ils appris au détective ? (Le projet NAPsack)

Pour entraîner ce détective, il fallait des milliers d'heures d'observation. Mais demander à des gens de noter manuellement chaque clic de souris serait impossible (et ennuyeux !).

Alors, ils ont inventé un outil appelé NAPsack.

  • L'analogie : Imaginez un caméra de surveillance automatique qui enregistre votre écran. Mais au lieu de juste filmer, elle utilise un "cerveau artificiel" (une IA visuelle) pour regarder les vidéos et écrire des légendes en temps réel.
  • Ce qu'elle fait : Elle voit que vous avez cliqué sur "Télécharger", puis ouvert un dossier, et elle écrit : "L'utilisateur a téléchargé un fichier et l'a rangé dans le dossier 'Projets'".
  • Ils ont utilisé cet outil sur 20 personnes pendant un mois. Résultat : 1 800 heures d'activité humaine annotées automatiquement, sans que les utilisateurs aient eu à faire le moindre effort !

4. Les Résultats : Ça marche !

Ils ont testé ce détective (LongNAP) et les résultats sont impressionnants :

  • Mieux que les autres : Il devine la prochaine action beaucoup mieux que les IA classiques (qui doivent être "entraînées" de manière rigide) ou que les IA qui se contentent de lire vos instructions.
  • La précision : Sur 100 prédictions, environ 17 sont très justes (elles correspondent exactement à ce que la personne va faire). Si on ne garde que les prédictions où le détective est très confiant, ce taux monte à 26%.
  • L'adaptation : Il fonctionne bien même s'il n'a jamais vu cette personne avant, tant qu'il a appris sur d'autres utilisateurs.

5. Pourquoi c'est important ?

C'est comme passer d'un télécommande (où vous devez appuyer sur un bouton pour chaque action) à un voiture autonome (qui sait où vous voulez aller et y va toute seule).

  • Avant : Vous devez cliquer, taper, naviguer pour tout faire.
  • Avec LongNAP : L'IA peut dire : "Je vois que vous avez fini votre rapport, je vais déjà ouvrir votre boîte mail pour que vous puissiez l'envoyer."

6. Les précautions (La confidentialité)

Bien sûr, savoir tout ce que vous faites sur votre ordinateur pose des questions de vie privée.

  • Les chercheurs soulignent que tout cela doit se faire de manière sécurisée, idéalement directement sur votre appareil (votre téléphone ou ordinateur) pour que vos données ne quittent jamais votre maison.
  • L'idée est que l'IA vous aide, mais ne vous espionne pas pour vendre vos données.

En résumé

Cette recherche nous dit que nous sommes capables de créer des IA qui nous comprennent vraiment, en observant nos habitudes quotidiennes. Grâce à un outil automatique pour apprendre ces habitudes, nous pouvons bientôt avoir des assistants numériques qui ne nous demandent pas "Que voulez-vous faire ?", mais qui disent : "Je vois que vous êtes prêt à partir, voulez-vous que je lance la navigation GPS ?"