STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks

Il paper presenta STRUCTUREDAGENT, un framework di pianificazione gerarchica che utilizza alberi AND/OR dinamici e un modulo di memoria strutturata per migliorare le prestazioni degli agenti LLM su compiti web a lungo orizzonte, superando le limitazioni degli approcci esistenti in termini di memoria, pianificazione e comportamento greedy.

ELita Lobo, Xu Chen, Jingjing Meng, Nan Xi, Yang Jiao, Chirag Agarwal, Yair Zick, Yan Gao

Pubblicato 2026-03-06
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🌐 STRUCTUREDAGENT: Il "Capo Cantiere" Intelligente per il Web

Immagina di dover organizzare un viaggio complesso per un gruppo di amici. Devi trovare voli, hotel, ristoranti e attività, rispettando budget, gusti personali e orari. Se provassi a farlo tutto a mente, senza scrivere nulla, probabilmente ti perderesti, dimenticheresti un volo o prenoteresti un hotel che non ha la piscina che volevi.

I LLM (i modelli di intelligenza artificiale come me) sono molto bravi a parlare, ma quando devono navigare su internet per compiti lunghi e complessi, spesso agiscono come qualcuno che cerca di organizzare quel viaggio senza prendere appunti e senza un piano. Si perdono, dimenticano cosa hanno fatto prima e si arrendono troppo presto.

STRUCTUREDAGENT è la soluzione a questo problema. È come trasformare l'agente da un "turista sperduto" in un "Capo Cantiere" esperto.

Ecco come funziona, diviso in due grandi idee:

1. La Mappa del Tesoro (L'Albero AND/OR) 🗺️

Invece di camminare a caso, STRUCTUREDAGENT costruisce una mappa mentale a forma di albero (chiamata albero AND/OR) mentre naviga.

  • Il Nodo "E" (AND): Immagina di dover preparare una cena. Per farla, devi avere gli ingredienti E le pentole E il fuoco. Se manca anche solo uno di questi, la cena non si fa. L'agente sa che deve completare tutti questi passaggi obbligatori.
  • Il Nodo "O" (OR): Ora immagina di dover scegliere il vino. Puoi prendere un Rosso O un Bianco. Se il Rosso è finito, l'agente non si blocca e non va in crash; passa semplicemente al Bianco. L'albero permette di avere piani di riserva pronti all'uso.

L'analogia del "Gioco delle Scale":
Pensa a un vecchio gioco dove devi salire una scala. Se ti fermi su un gradino sbagliato, un agente normale potrebbe cadere e dire "Non ce la faccio". STRUCTUREDAGENT, invece, ha una scala mobile intelligente: se un gradino crolla (un errore), può immediatamente saltare su un altro ramo della scala (un piano alternativo) senza dover ricominciare da capo.

2. Il Quaderno degli Appunti Strutturato (Structured Memory) 📓

Il secondo grande problema degli agenti web è la "memoria a breve termine". Se un agente legge 20 pagine web, dopo un po' dimentica cosa c'era nella pagina 1.

STRUCTUREDAGENT ha un quaderno speciale. Non scrive tutto a caso come un diario disordinato.

  • Se stai cercando 3 laptop sotto i 500€, il quaderno crea una tabella.
  • Riga 1: Laptop A (Prezzo: 450€, RAM: 8GB, Stato: Promettente).
  • Riga 2: Laptop B (Prezzo: 600€, RAM: 16GB, Stato: Scartato - troppo caro).

Questo permette all'agente di non perdere mai di vista i suoi obiettivi. Se trova un'offerta migliore, aggiorna la riga. Se un prodotto non è più disponibile, lo cancella. È come avere un assistente personale che tiene traccia di tutte le opzioni mentre tu guardi il panorama.

🛠️ Come agisce nella vita reale?

Immagina di chiedere all'agente: "Trova una ricetta di brownie vegani con rating 4 stelle o più su AllRecipes".

  1. Pianificazione: L'agente non clicca subito. Disegna l'albero:
    • Obiettivo: Trova ricetta.
    • Sotto-obiettivo 1 (E): Cerca "brownie vegani".
    • Sotto-obiettivo 2 (E): Controlla il rating.
    • Sotto-obiettivo 3 (O): Se la prima ricetta non va bene, prova la seconda o la terza.
  2. Esecuzione: Clicca, legge, e scrive nel suo Quaderno Strutturato: "Brownie A: Rating 3.5 (Scartato)".
  3. Recupero dall'errore: Se clicca sul link sbagliato e la pagina è rotta, invece di arrendersi, l'albero gli dice: "Ok, questo ramo è rotto. Torna indietro e prova il ramo 'Sotto-obiettivo 2' con un'altra strategia".
  4. Intervento Umano (Opzionale): Se l'agente si blocca, un umano può guardare la mappa, vedere dove ha sbagliato il ragionamento e correggere il percorso, proprio come un capitano che corregge la rotta a un pilota automatico.

🏆 Perché è meglio degli altri?

Gli studi mostrano che STRUCTUREDAGENT vince perché:

  • Non è "avido": Non si accontenta della prima cosa che trova se non è perfetta. Esplora le alternative.
  • Non dimentica: Il quaderno strutturato gli permette di gestire compiti lunghissimi (come fare la spesa online con 10 regole diverse) senza impazzire.
  • È spiegabile: Se fallisce, possiamo guardare l'albero e vedere esattamente dove ha sbagliato il ragionamento, invece di avere una scatola nera che dice solo "non so farlo".

In sintesi 🌟

STRUCTUREDAGENT è come dare a un'intelligenza artificiale:

  1. Una mappa strategica che prevede piani A, B e C.
  2. Un quaderno organizzato per non dimenticare nulla.
  3. La capacità di riconoscere gli errori e ripartire senza perdere tempo.

È il passaggio dal "cliccare a caso sperando di indovinare" al "pianificare, eseguire e correggere come un professionista".

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →