STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks

El artículo presenta STRUCTUREDAGENT, un marco de planificación jerárquica que utiliza árboles AND/OR dinámicos y un módulo de memoria estructurada para superar las limitaciones de los agentes web actuales en tareas de navegación a largo plazo, mejorando significativamente su rendimiento y capacidad de depuración.

ELita Lobo, Xu Chen, Jingjing Meng, Nan Xi, Yang Jiao, Chirag Agarwal, Yair Zick, Yan Gao

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres que un robot (o una Inteligencia Artificial) vaya a internet a hacer una tarea complicada, como "Encontrar 3 recetas de brownies veganos con más de 4 estrellas y que cuesten menos de $10".

Los agentes de IA actuales suelen ser como niños muy entusiastas pero sin mapa: ven algo que parece bueno, lo hacen, y si se equivocan, se rinden o se pierden. A veces, la página web es tan larga que el robot olvida lo que vio hace cinco pasos.

Este paper presenta a STRUCTUREDAGENT, un nuevo tipo de agente que es como un arquitecto experto con un plano de construcción. Aquí te explico cómo funciona usando analogías sencillas:

1. El Problema: El "Viajero Sin Mapa"

Imagina que intentas llegar a una ciudad desconocida.

  • Los agentes viejos: Son como alguien que camina mirando solo el suelo a sus pies. Si se tropieza, se queda ahí. Si ven una calle que parece bien, la toman sin pensar en el destino final. Si la página web es gigante (como un libro de 200 páginas), se les olvida lo que leyeron al principio.
  • El resultado: Se cansan, se frustran y terminan la tarea antes de tiempo o con respuestas incorrectas.

2. La Solución: El "Arquitecto con Plano AND/OR"

STRUCTUREDAGENT no camina a ciegas. Tiene un plano de construcción (un árbol de decisiones) que va dibujando mientras avanza.

Imagina que el plano tiene dos tipos de habitaciones:

  • Habitaciones "Y" (AND): Son como una lista de compras obligatoria. Para que la misión sea un éxito, TODAS las cosas deben pasar.
    • Ejemplo: Para hacer un brownie, Necesitas (Y) harina, Y chocolate, Y huevos. Si te falta uno, no hay brownie. El agente se asegura de completar cada paso de la lista.
  • Habitaciones "O" (OR): Son como tener varias rutas para llegar a la misma meta.
    • Ejemplo: Para encontrar el chocolate, puedes O ir al supermercado, O ir a la tienda de barrio, O pedirlo por internet. Si el supermercado está cerrado (falla), el agente no se rinde; simplemente toma la ruta "O" (la tienda de barrio) y sigue.

La magia: El agente no solo sigue el plano, lo dibuja en tiempo real. Si una ruta falla, borra esa parte del plano y dibuja una nueva al instante.

3. La "Carpeta de Notas Inteligente" (Memoria Estructurada)

Los agentes normales suelen tener una "memoria de pez" o toman notas desordenadas en un papel arrugado. Si encuentran un producto bueno pero luego ven otro, a veces olvidan el primero.

STRUCTUREDAGENT tiene una Carpeta de Notas Inteligente (un módulo de memoria estructurada).

  • Imagina una hoja de cálculo (Excel) que se actualiza sola.
  • Cada vez que el agente ve un producto, lo anota en la hoja con sus características: "Brownie A: 4 estrellas, $8. Brownie B: 5 estrellas, $12".
  • Si el agente se equivoca y el Brownie A no cumple una regla, la carpeta lo marca automáticamente y le dice: "Oye, no uses este, mira el siguiente".
  • Esto evita que el agente vuelva a visitar páginas que ya sabe que no le sirven.

4. El "Supervisor Humano" (Interpretabilidad)

A veces, el agente puede tener una idea equivocada sobre cómo empezar.

  • En los sistemas viejos, si el agente se equivoca, nadie sabe por qué hasta que falla todo.
  • Con STRUCTUREDAGENT, como tiene un plano visual (el árbol), un humano puede mirar el plano y decir: "Espera, no empieces buscando en Google, empieza yendo a la tienda". El agente puede corregir el plano en ese momento exacto. Es como tener un copiloto que puede ver el mapa y corregir la ruta antes de que el coche se estrelle.

Resumen en una frase

STRUCTUREDAGENT es como un detective que no solo busca pistas, sino que lleva un cuaderno de investigación organizado donde anota cada pista, dibuja un mapa de rutas alternativas (si una calle está cerrada, toma otra) y nunca olvida lo que ya descubrió, lo que le permite resolver misterios muy largos y complejos en internet sin perderse.

¿Por qué es importante?
Porque ahora podemos confiar en que la IA puede hacer tareas largas y difíciles (como comprar cosas específicas, investigar datos complejos o llenar formularios largos) sin cometer errores tontos por olvidarse de lo que hizo hace un minuto.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →