Learning Next Action Predictors from Human-Computer Interaction

Este artículo presenta LongNAP, un modelo que utiliza aprendizaje en contexto y razonamiento sobre historiales de interacción multimodal para predecir con éxito las próximas acciones de los usuarios, demostrando que el aprendizaje de comportamientos completos es viable para crear sistemas de IA proactivos.

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang

Publicado Mon, 09 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un asistente personal digital que no solo espera a que le digas qué hacer, sino que sabe exactamente lo que vas a necesitar antes de que tú mismo te des cuenta.

Este artículo de investigación presenta una tecnología llamada LongNAP (Predicador de la Próxima Acción de Larga Duración). Aquí te explico cómo funciona usando analogías sencillas:

1. El Problema: Los "Antiguos" Asistentes

Hasta ahora, la Inteligencia Artificial (IA) era como un camarero con los ojos vendados. Solo podía ver lo que le gritabas en la mesa (tu "prompt" o instrucción). Si le decías "quiero un café", te lo traía. Pero el camarero no sabía que te habías despertado tarde, que tenías una reunión importante en 10 minutos o que estabas revisando tus correos de trabajo. No conocía tu historia, solo lo que le decías en ese preciso instante.

2. La Solución: El "Detective de Hábitos" (LongNAP)

LongNAP es diferente. Es como un detective muy observador que ha estado siguiéndote (de forma privada y en tu propio dispositivo) durante un mes entero.

  • Lo que ve: No solo lee lo que escribes, sino que "mira" lo que haces en tu pantalla: qué aplicaciones abres, en qué haces clic, qué fotos ves y cómo te mueves.
  • Su superpoder: En lugar de guardar todo en su memoria de forma rígida (como un libro de texto), aprende a buscar en su propia memoria.

3. ¿Cómo aprende? (La Caja de Herramientas "NAPsack")

Para entrenar a este detective, los investigadores crearon una herramienta llamada NAPsack.

  • La analogía: Imagina que tienes una cámara de seguridad que graba tu teléfono todo el día. Pero en lugar de guardar 24 horas de video aburrido, NAPsack es un editor inteligente. Solo guarda los momentos importantes (cuando tocas algo) y usa una IA avanzada para escribir una "nota" sobre lo que hiciste (ej: "El usuario abrió el correo y leyó las reseñas de un artículo").
  • El resultado: Crearon una base de datos gigante con 360,000 acciones reales de 20 personas durante 1,800 horas de uso. ¡Todo esto sin que los usuarios tuvieran que escribir nada manualmente!

4. ¿Cómo piensa LongNAP? (El proceso de dos pasos)

Cuando LongNAP quiere predecir qué harás a continuación, no adivina al azar. Sigue un proceso de dos pasos muy humano:

  1. Paso 1: "Recordar para entender" (Reasoning to Retrieve):

    • Ves una notificación y abres un correo. LongNAP piensa: "Ah, está revisando reseñas de un artículo".
    • Entonces, busca en su memoria: "¿Qué solía hacer esta persona cuando revisaba reseñas antes?".
    • Encuentra un registro antiguo: "La última vez, después de leer reseñas, le envió un mensaje a su colega en Slack para dividir el trabajo".
  2. Paso 2: "Predecir el futuro" (Reasoning to Predict):

    • Con esa pista en mente, LongNAP dice: "¡Ya sé! Lo más probable es que abra Slack y le escriba a su colega ahora mismo".
    • Si acierta, guarda esa experiencia para aprender aún más.

5. ¿Funciona realmente?

¡Sí! Los resultados fueron sorprendentes:

  • Mejor que los expertos: Cuando LongNAP se entrenó con los datos de una sola persona, superó a otros modelos de IA (incluyendo a los más famosos y caros) en un 79%.
  • Adivina el futuro: Aunque el futuro es incierto y hay miles de cosas que podrías hacer, LongNAP acertó en el 17% de las veces (y hasta un 26% cuando estaba muy seguro de su predicción).
  • Se adapta a todos: Incluso cuando se entrenó con muchos usuarios a la vez, logró predecir lo que harían personas nuevas que nunca había visto antes.

6. ¿Para qué sirve esto en la vida real?

Imagina un futuro donde tu teléfono:

  • Anticipa tus necesidades: Si ves que estás revisando mapas de casas, tu asistente podría abrir automáticamente una calculadora de hipotecas antes de que se te ocurra.
  • Te ayuda a trabajar: Si detecta que estás estresado y procrastinando, podría sugerirte hacer una pausa o recordarte una tarea pendiente de forma suave.
  • Privacidad: Lo mejor es que todo este "detective" puede vivir en tu propio teléfono. No necesita enviar tus secretos a la nube; aprende de ti y se queda contigo.

En resumen

Este paper nos dice que ya es posible crear una IA que te conoce de verdad. No solo responde a lo que le pides, sino que entiende tu contexto, tus hábitos y tu historia para ayudarte a hacer lo siguiente que necesitas hacer, incluso antes de que tú lo sepas. Es el paso de tener un "chatbot" a tener un verdadero compañero digital.