Learning Next Action Predictors from Human-Computer Interaction

Este artigo apresenta o LongNAP, um modelo de IA que prevê a próxima ação do usuário analisando seu histórico completo de interações multimodais, utilizando uma abordagem inovadora de aprendizado por contexto e reforço treinada em um novo conjunto de dados massivo de uso de smartphones.

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang

Publicado Mon, 09 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente pessoal superinteligente, mas que, até agora, só consegue "ouvir" o que você diz quando fala com ele. Se você digita "me ajude a escrever um e-mail", ele ajuda. Mas ele não sabe por que você está escrevendo, o que você estava fazendo antes, ou como você costuma reagir a certas situações. Ele vê apenas a ponta do iceberg.

Este artigo de pesquisa (um "preprint") apresenta uma nova forma de criar assistentes que realmente entendem você. Eles não esperam você pedir ajuda; eles tentam adivinhar o que você vai fazer a seguir, baseados em tudo o que você já fez e viu no seu computador ou celular.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O Assistente Cego

Hoje, a Inteligência Artificial (IA) é como um detetive que só consegue ver o que você escreve em um bilhete. Ela não sabe que você estava triste, que acabou de receber uma notícia ruim ou que está cansado. Ela ignora o contexto completo da sua vida digital.

O objetivo dos autores é criar um sistema que olhe para tudo: as telas que você viu, os cliques que você deu, os aplicativos que você abriu e a ordem em que fez tudo isso.

2. A Solução: O "NAPsack" (A Mochila de Dados)

Para ensinar a IA a entender você, eles precisavam de dados. Mas pedir para as pessoas anotarem cada clique que fazem é impossível (ninguém tem tempo para isso).

Então, eles criaram uma ferramenta chamada NAPsack.

  • A Analogia: Imagine uma câmera de segurança silenciosa que grava o que você faz no seu computador, mas em vez de gravar horas de vídeo chato, ela usa um "olho mágico" (uma IA de visão) para resumir: "O usuário clicou no botão de download, depois abriu o e-mail".
  • Eles usaram isso para gravar e resumir a vida digital de 20 pessoas por um mês inteiro. Isso gerou um "livro de memórias" com mais de 360.000 ações e 1.800 horas de uso de tela. Tudo isso feito de forma passiva, sem que os usuários precisassem fazer nada além de usar seus aparelhos normalmente.

3. O Cérebro: O LongNAP (O Detetive com Memória)

Com os dados em mãos, eles criaram um modelo chamado LongNAP.

  • O Problema da Memória: A IA não consegue lembrar de tudo o que você fez nos últimos 6 meses se colocar tudo na tela de uma vez (seria como tentar ler um livro inteiro de uma só vez sem piscar).
  • A Solução Criativa: O LongNAP funciona como um detetive experiente com uma caixa de arquivos.
    1. Fase 1 (Pensar para Procurar): Quando você abre um aplicativo, o LongNAP pensa: "O que o usuário está fazendo agora?". Com base nisso, ele vai até a caixa de arquivos (sua memória) e busca casos antigos parecidos. "Ah, na semana passada, quando ele viu uma crítica de artigo, ele mandou mensagem para o colega."
    2. Fase 2 (Pensar para Prever): Ele pega essa informação antiga e combina com o que está acontecendo agora para prever o próximo passo. "Como ele está lendo críticas de novo, provavelmente vai mandar mensagem para o colega agora."

4. Como eles ensinaram a IA? (O Treinamento)

Eles não apenas mostraram os dados para a IA. Eles usaram um método de "tentativa e erro" inteligente.

  • O Juiz: A cada vez que o LongNAP fazia uma previsão (ex: "O usuário vai abrir o Slack"), eles esperavam para ver o que a pessoa realmente fez.
  • A Pontuação: Uma IA "juíza" comparava a previsão com a realidade e dava uma nota de 0 a 1. Se a IA acertasse o espírito da ação, ganhava pontos. Com o tempo, a IA aprendeu a ser cada vez mais precisa, ajustando suas "memórias" e raciocínios.

5. Os Resultados: O Assistente que "Adivinha"

Os resultados foram impressionantes:

  • Precisão: Quando treinado em uma única pessoa, o LongNAP acertou muito mais do que qualquer outro método (79% melhor que os concorrentes).
  • Generalização: Mesmo treinado com dados de várias pessoas, ele conseguiu se adaptar a pessoas novas, funcionando como um assistente que já conhece seus hábitos.
  • A Mágica: Em cerca de 17% das vezes, a previsão da IA era tão boa que parecia que ela estava lendo a mente da pessoa. Se você filtrar apenas as previsões mais confiantes, esse número sobe para 26%.

6. Por que isso importa? (O Futuro)

Imagine um assistente que:

  • Percebe que você está com dificuldade em um projeto e já abre os arquivos relevantes antes de você pedir.
  • Sabe que você costuma procrastinar em certas tarefas e te dá um empurrãozinho no momento certo.
  • Organiza sua vida digital baseada no que você realmente faz, não no que você diz que faz.

O Ponto de Atenção (Privacidade)

O artigo também avisa: para fazer isso, a IA precisa ver tudo o que você faz. Isso é um risco de privacidade. Os autores sugerem que, no futuro, esse processamento deve acontecer dentro do seu próprio dispositivo (seu celular ou computador), sem enviar seus dados para a nuvem, para garantir que seus segredos permaneçam seus.

Resumo da Ópera:
Os autores criaram um sistema que transforma o "rastro digital" que deixamos no computador em um mapa de comportamento. Em vez de apenas reagir aos nossos comandos, a IA aprende a antecipar nossas necessidades, agindo como um parceiro que realmente conhece nossos hábitos e intenções.