Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un robot come giocare a un nuovo gioco, ma invece di scrivere tu stesso le regole complesse, provi a spiegarle a un'intelligenza artificiale (come un Chatbot molto avanzato) usando solo parole semplici, come faresti con un amico.

Il problema è che questi "assistenti digitali" sono bravissimi a parlare, ma spesso sbagliano a tradurre le regole del gioco in un linguaggio che il robot capisce davvero. Spesso creano regole che sembrano corrette grammaticalmente, ma che portano a situazioni impossibili o senza senso.

Questo articolo di ricerca parla di un nuovo metodo per risolvere proprio questo problema. Ecco come funziona, spiegato con delle metafore semplici:

1. Il Problema: L'Architetto che sbaglia i piani

Immagina che l'IA sia un architetto alle prime armi. Tu gli dici: "Voglio costruire una casa con tre stanze e una porta che porta al giardino". Lui disegna i piani (il "dominio di pianificazione"), ma spesso si dimentica che la porta non può essere nel soffitto o che le stanze devono essere collegate. Se provi a costruire la casa seguendo i suoi piani, crolla tutto.

Fino a poco tempo fa, gli architetti (le IA) facevano i piani e basta. Se c'erano errori, li trovavi solo quando provavi a costruire la casa e fallivi.

2. La Soluzione: Il "Controllore di Qualità" e la "Bussola"

Gli autori di questo studio hanno creato un sistema in due fasi per aiutare l'architetto a migliorare i suoi piani:

Il Controllore di Qualità (Feedback): Invece di lasciare che l'architetto lavori da solo, gli danno due tipi di "aiuti" (feedback) basati su regole matematiche precise:
- I "Punti di Riferimento" (Landmarks): Immagina di dire all'architetto: "In ogni casa che costruisci, devi avere per forza una scala". Se il piano non ha la scala, il controllore gli dice: "Ehi, manca la scala!".
- Il "Test di Prova" (Plan Validation): Immagina di prendere un piano di viaggio (es. "Vai dal garage al giardino") e di provare a eseguirlo sui disegni dell'architetto. Se il viaggio si blocca perché una porta è chiusa o non esiste, il controllore dice: "Il tuo piano non funziona, c'è un errore qui".
La Bussola Intelligente (Ricerca Euristiche): Qui sta la parte geniale. Quando l'architetto sbaglia, il controllore potrebbe dargli molti messaggi diversi su cosa correggere.
- Il metodo vecchio era come un passeggiata a caso: "Proviamo a correggere questo errore a caso... no, non funziona. Proviamo quell'altro a caso...".
- Il metodo nuovo usa una bussola intelligente. Analizza tutti i possibili messaggi di correzione e sceglie quello che ha più probabilità di portare a un piano perfetto, saltando quelli inutili. È come avere una mappa che ti dice quale strada prendere per arrivare alla meta più velocemente, invece di girare a caso per la città.

3. L'Esperimento: La Gara tra Architetto e AI

Gli scienziati hanno messo alla prova questo sistema su diversi "giochi" (dai classici come il Blocco di Legno a scenari nuovi e strani come "Pac-Man" o "Escursioni in montagna").
Hanno usato diversi modelli di intelligenza artificiale (come GPT-5 mini, DeepSeek, ecc.) e hanno visto cosa succedeva:

Senza aiuto: L'architetto faceva piani spesso sbagliati.
Con l'aiuto casuale: I piani miglioravano, ma a volte l'architetto si perdeva correggendo cose sbagliate.
Con l'aiuto intelligente (Bussola): Il sistema ha trovato la strada migliore per correggere gli errori. In molti casi, è riuscito a creare piani perfetti (100% corretti) per ogni tipo di gioco, anche quelli molto difficili.

In Sintesi

Questo lavoro dimostra che se vuoi insegnare a un'IA a creare regole complesse per un robot, non basta dirle "fai un buon lavoro". Devi darle strumenti di controllo precisi (come i punti di riferimento e i test di prova) e un metodo intelligente per scegliere quali correzioni fare.

È come se invece di lasciare che un bambino impari a cucinare solo guardando un video, gli dessi un libro di ricette, un assistente che gli dice "hai dimenticato il sale" e un navigatore che gli dice "se aggiungi il sale ora, il piatto verrà perfetto". Il risultato è un piatto (o un piano di robot) molto più gustoso e funzionante.

Il messaggio finale: Con questo metodo, anche persone non esperte di robotica potranno un giorno descrivere a parole semplici cosa devono fare i robot, e l'IA saprà trasformare quelle parole in istruzioni perfette e sicure.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

La generazione automatica di domini di pianificazione (descritti in PDDL - Planning Domain Definition Language) partendo da descrizioni in linguaggio naturale rimane una sfida aperta, nonostante i progressi dei Large Language Models (LLM).

Stato dell'arte: Sebbene gli LLM possano generare domini sintatticamente corretti, questi sono spesso semanticamente difettosi (non rispecchiano la logica reale del dominio descritto).
Limitazioni delle approcci precedenti: Le soluzioni esistenti si basano spesso su un singolo tipo di feedback (es. solo validazione di piani) o su benchmark limitati a domini noti, rischiando l'overfitting e non generalizzando a domini complessi o nuovi. Inoltre, molti metodi richiedono l'uso di un "oracolo" perfetto o valutazioni umane, rendendo il processo non scalabile.

2. Metodologia

Gli autori propongono un framework agentic che tratta la generazione del dominio come un problema di ricerca nello spazio dei messaggi di feedback. L'obiettivo è raffinare iterativamente un dominio generato inizialmente ( $D'$ ) fino a renderlo equivalente al dominio di verità ( $D$ ).

Componenti Chiave del Framework:

Fase di Costruzione Iniziale:
- L'LLM riceve una descrizione in linguaggio naturale ( $D_{NL}$ ) e genera un dominio PDDL iniziale.
- Vengono applicati controlli di sintassi rigorosi; se il codice PDDL non è valido, l'LLM viene ripromptato per correggere gli errori sintattici prima di procedere.
Meccanismi di Feedback Simbolico:
Il sistema utilizza due fonti principali di feedback simbolico per guidare la correzione:
- Landmark (Punti di riferimento): Utilizza disjunctive action landmarks (insiemi di azioni di cui almeno una deve apparire in ogni piano valido). Se un piano generato nel dominio $D'$ non soddisfa i landmark del dominio di verità, viene generato un messaggio di errore.
- Validazione dei Piani (Plan Validation): Utilizza il validatore VAL per verificare se i piani validi nel dominio di verità rimangono validi quando eseguiti nel dominio generato $D'$ . Se un piano fallisce, VAL fornisce dettagli sugli errori (precondizioni mancanti, effetti errati, obiettivi non raggiunti).
Ricerca nello Spazio dei Feedback (Heuristic Search):
Invece di applicare il feedback in modo casuale (random walk), il sistema implementa una ricerca euristica best-first nello spazio dei possibili messaggi di feedback.
- L'algoritmo mantiene un albero di ricerca dove i nodi rappresentano i domini generati.
- Per ogni dominio, vengono generati multipli messaggi di feedback potenziali.
- Viene utilizzata una funzione euristica basata sulla profondità del nodo e sul numero di piani invalidi ( $H$ ) per selezionare il percorso di raffinamento più promettente.
- Questo permette di esplorare strategicamente le correzioni necessarie invece di affidarsi al caso.
Valutazione Automatica (HDE):
Per evitare valutazioni umane, gli autori utilizzano una versione modificata della Heuristic Domain Equivalence (HDE).
- Confronta i piani generati nel dominio $D'$ con quelli del dominio di verità $D$ su un set di problemi di valutazione.
- Calcola una metrica normalizzata che misura la validità dei piani nella direzione "forward" (piani di verità validi in $D'$ ) e "backward" (piani generati in $D'$ validi in $D$ ). Un punteggio HDE del 100% indica equivalenza perfetta.

3. Contributi Chiave

Framework di Ricerca nel Feedback: Introduzione di un approccio sistematico che tratta la selezione del feedback come un problema di ricerca euristica, superando i limiti delle strategie "random single feedback".
Integrazione di Feedback Multipli: Dimostrazione dell'efficacia nel combinare feedback di landmark (strutturali) e validazione dei piani (esecutivi).
Valutazione Robusta e Automatica: Adozione della metrica HDE su domini nuovi e mai visti dagli LLM (inclusi domini oscuri come hiking, pacman-63/72), garantendo che i risultati non siano dovuti a overfitting sui dati di addestramento.
Riduzione della Dipendenza dall'Oracolo: Il metodo utilizza problemi e piani del dominio di verità solo per generare feedback e valutare, senza richiedere un oracolo onnisciente durante la fase di generazione.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su 8 domini (classici e nuovi) utilizzando tre modelli linguistici: gpt-5-nano, gpt-5-mini e deepseek-chat.

Miglioramento rispetto alla Baseline: Tutti i metodi con feedback hanno superato significativamente la baseline "No Feedback" (N) in termini di punteggio HDE medio.
Efficacia della Ricerca Euristica: La combinazione di feedback multipli con ricerca euristica (LVS - Landmark + Plan Validation with Search) ha dimostrato di essere la strategia più robusta.
- Con il modello gpt-5-mini, la strategia LVS è riuscita a generare un dominio con 100% di punteggio HDE almeno una volta per ogni singolo dominio testato.
Complementarità dei Feedback: Non esiste un singolo tipo di feedback dominante. I landmark e la validazione dei piani hanno punti di forza complementari; la loro combinazione tende a migliorare le prestazioni, sebbene in alcuni casi specifici la ricerca euristica possa talvolta performare peggio di un approccio random (a causa della complessità dello spazio di ricerca).
Impatto del Modello: I modelli più piccoli (come gpt-5-mini) hanno beneficiato enormemente del feedback strutturato, raggiungendo prestazioni superiori rispetto a modelli più grandi in assenza di feedback.

5. Significato e Implicazioni

Questo lavoro rappresenta un passo avanti significativo verso l'automazione dell'ingegneria della pianificazione:

Accessibilità: Dimostra che è possibile generare domini PDDL di alta qualità partendo da descrizioni testuali semplici, rendendo la pianificazione AI accessibile a non esperti.
Affidabilità: L'uso di feedback simbolici (landmark e validazione) garantisce che i domini generati siano semanticamente corretti e non solo sintatticamente validi.
Generalizzazione: La capacità di gestire domini nuovi e complessi senza dati di addestramento specifici suggerisce che questo approccio è scalabile per scenari del mondo reale.
Futuro: Il framework apre la strada all'uso di altri tipi di feedback (es. invarianti) e all'integrazione in scenari di pianificazione reali, riducendo il collo di bottiglia nella creazione manuale dei modelli di dominio.

In sintesi, il paper dimostra che trasformare la generazione di modelli in un processo di ricerca guidata da feedback simbolico è una strategia superiore rispetto alla generazione diretta o al semplice riprompting casuale, permettendo di raggiungere livelli di correttezza quasi perfetti.

Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

1. Il Problema: L'Architetto che sbaglia i piani

2. La Soluzione: Il "Controllore di Qualità" e la "Bussola"

3. L'Esperimento: La Gara tra Architetto e AI

In Sintesi

1. Il Problema

2. Metodologia

Componenti Chiave del Framework:

3. Contributi Chiave

4. Risultati Sperimentali

5. Significato e Implicazioni

Articoli simili

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas