PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente virtuale super-intelligente (un "agente LLM") che deve gestire compiti complessi, come prenotare voli, gestire spedizioni internazionali o risolvere problemi tecnici. Il problema è che questi assistenti, se lasciati soli, tendono a dimenticare le regole, confondersi quando le cose cambiano o seguire vecchie informazioni che non sono più valide.

Il paper PRECEPT presenta una nuova architettura per rendere questi assistenti più intelligenti, affidabili e capaci di adattarsi in tempo reale. Ecco come funziona, spiegato con parole semplici e analogie quotidiane.

1. Il Problema: L'Assistente che "Sogna" a volte

Immagina di chiedere al tuo assistente: "Come spedisco un pacco in Asia se è fragile e urgente?".

I vecchi metodi: L'assistente cerca nella sua "memoria" (che è scritta in linguaggio naturale, come un diario) frasi simili. Se la memoria è piena, potrebbe confondersi: "Ah, ho letto qualcosa sull'Asia e qualcosa sulla fragilità...". Ma potrebbe mischiare male le cose e darti una risposta sbagliata basata su una mezza interpretazione. È come cercare di ricordare una ricetta leggendo un libro di cucina sbiadito mentre hai fretta: rischi di mettere il sale invece dello zucchero.
Il rischio: Più condizioni ci sono (fragile, urgente, Asia, assicurato, ecc.), più è probabile che l'assistente faccia confusione.

2. La Soluzione PRECEPT: Tre Pilastri Magici

PRECEPT risolve questi problemi con tre idee principali, che lavorano insieme come un team perfetto.

A. Il "Libro delle Regole" Esatto (Recupero Deterministico)

Invece di far leggere all'assistente un diario confuso, PRECEPT gli dà un indice di un libro di regole.

L'analogia: Immagina di avere un armadio con migliaia di scatole. Ogni scatola ha un'etichetta precisa (es. "Asia-Fragile-Urgente"). Quando hai un compito, non cerchi "qualcosa che assomiglia ad Asia", ma apri esattamente la scatola con quell'etichetta.
Il vantaggio: Non c'è confusione. Se la regola esiste, la trovi al 100% e la applichi senza errori. È come usare un codice a barre invece di indovinare il contenuto di un pacco. Questo permette all'assistente di combinare regole semplici per creare soluzioni complesse senza impazzire.

B. La "Memoria che Smette di Credere alle Bugie" (Gestione dei Conflitti)

A volte, l'assistente ha due fonti di informazioni che si contraddicono:

La vecchia guida (Statica): Un manuale scritto anni fa che dice "Usa il porto X".
L'esperienza recente (Dinamica): L'assistente ha appena provato e il porto X è chiuso.

Il vecchio metodo: L'assistente potrebbe ignorare la sua esperienza e seguire il vecchio manuale perché "sembra più autorevole".
Il metodo PRECEPT: Usa un sistema simile a un giudice sportivo con un tabellone di punteggio.
- Se la vecchia guida dice una cosa e l'esperienza ne dice un'altra, il sistema controlla chi ha ragione.
- Usa la matematica (Bayesiana) per dire: "Ok, la vecchia guida ha fatto 5 errori su 5 volte in questo caso specifico, quindi la sua credibilità scende a zero. Seguiamo l'esperienza recente!".
- È come se un allenatore smettesse di ascoltare il vecchio libro di tattiche se i giocatori in campo stanno chiaramente sbagliando e inizia ad ascoltare i dati in tempo reale.

C. L'Allenatore che Cambia Strategia (COMPASS)

Mentre l'assistente lavora, c'è un "allenatore" (chiamato COMPASS) che osserva tutto.

L'analogia: Immagina un allenatore di calcio che guarda la partita. Se nota che la squadra sta perdendo perché usa sempre la stessa formazione, non aspetta la fine della stagione. Interviene subito.
Cosa fa:
1. Monitora: Controlla ogni passo che fa l'assistente. Se sbaglia, lo blocca immediatamente.
2. Adatta: Se l'assistente continua a fallire, l'allenatore riscrive le istruzioni (il "prompt") per il prossimo tentativo, cercando nuove strategie.
3. Sceglie il meglio: Non prova tutto a caso. Usa una logica intelligente per scegliere solo le strategie che funzionano meglio e che sono diverse tra loro (per non rimanere bloccati in un unico modo di pensare).

3. Cosa succede quando le cose cambiano? (Adattamento)

Immagina che domani il porto di Shanghai cambi le regole di dogana.

I vecchi sistemi: Continuerebbero a usare le vecchie regole finché non vengono riaddestrati da zero (un processo lungo e costoso).
PRECEPT: Appena l'assistente sbaglia perché la regola è vecchia, il sistema cancella quella regola specifica dalla memoria e ne impara una nuova immediatamente. È come se avessi una lavagna cancellabile: se scrivi qualcosa di sbagliato, lo cancelli e scrivi la cosa giusta, senza dover rifare tutto il libro.

In Sintesi: Perché è importante?

PRECEPT non cerca di rendere l'assistente "più intelligente" in senso generico (più dati, più potenza), ma lo rende più strutturato.

Non sogna: Usa regole precise invece di interpretazioni vaghe.
Non è testardo: Riconosce quando una vecchia informazione è sbagliata e la aggiorna.
Impara velocemente: Si adatta ai cambiamenti in tempo reale, senza bisogno di lunghe sessioni di studio.

È come passare da un assistente che legge un diario confuso e fa supposizioni, a un sistema di gestione logistica militare che ha mappe precise, sensori in tempo reale e un comando centrale che corregge gli errori sul nascere. Il risultato è un agente che commette meno errori, impara più velocemente e funziona anche quando le regole del gioco cambiano all'improvviso.

Each language version is independently generated for its own context, not a direct translation.

Titolo: PRECEPT: Un Framework Unificato per l'Adattamento al Test-Time con Apprendimento di Regole Compositivo ed Evoluzione dei Prompt Guidata da Pareto

1. Il Problema: Limiti degli Agenti LLM Attuali

Gli agenti basati su Large Language Models (LLM) che memorizzano la conoscenza come linguaggio naturale (riflessione verbale) soffrono di gravi limitazioni quando vengono applicati a scenari reali complessi:

Degradazione dell'Interpretazione: Man mano che il numero di condizioni aumenta, la capacità di recuperare e interpretare correttamente le regole diminuisce esponenzialmente. Il paper stima un errore di "partial-match" del 94,4% a 10 condizioni per i metodi verbali, contro lo 0% per i metodi deterministici.
Esplosione Compositiva: Imparare tutte le combinazioni di $N$ condizioni atomiche richiederebbe un training esponenziale ( $O(2^N)$ ), rendendo impossibile la generalizzazione a scenari non visti.
Cecità allo Spostamento (Drift Blindness): Le regole apprese diventano obsolete se l'ambiente cambia, ma i sistemi attuali non hanno meccanismi espliciti per rilevare e invalidare conoscenze "stale" (vecchie) o conflittuali.
Inefficienza del Campionamento: I metodi di Reinforcement Learning (RL) richiedono un numero proibitivo di tentativi ( $\beta > 100$ ) per adattarsi, mentre i metodi verbali necessitano di almeno 5 tentativi, rendendoli inadatti a scenari con vincoli di risorse stretti ( $\beta \le 3$ ).

2. Metodologia: L'Architettura PRECEPT

PRECEPT è un framework unificato che risolve questi problemi attraverso tre componenti strettamente accoppiati, progettati per operare in un ciclo di adattamento al test-time (senza ri-addestramento del modello base):

A. Recupero Deterministico e Regole Compositive (Core)

Recupero Esatto ( $O(1)$ ): Invece di cercare similarità semantiche, PRECEPT utilizza chiavi di condizione strutturate per un lookup esatto (hash table). Questo elimina l'ambiguità dell'interpretazione dell'LLM sulla via deterministica.
Gerarchia dei Livoli Semantici: Le regole atomiche sono organizzate in una gerarchia di priorità (es. Sicurezza > Compliance > Preferenze).
Generalizzazione Compositiva: Il sistema impara $N$ regole atomiche e le compone dinamicamente al momento del test. Grazie alla gerarchia, è possibile coprire fino a $2^N - 1$ scenari compositi senza training esplicito su ogni combinazione.

B. Memoria di Conflitto e Adattamento (Evo-Memory)

Ispirato al principio della "Regina Rossa Digitale" (DRQ), PRECEPT gestisce i conflitti tra conoscenze statiche (pre-esistenti) e dinamiche (esperienze runtime):

Rilevamento dei Conflitti (Tipo I): Utilizza un ensemble di sei metodi (inclusi classificatori NLI e analisi temporale) per rilevare contraddizioni tra conoscenze statiche e dinamiche.
Risoluzione Bayesiana: L'affidabilità delle fonti (statica vs dinamica) è modellata tramite distribuzioni Beta. L'agente utilizza il Thompson Sampling per bilanciare sfruttamento ed esplorazione, dando priorità alla fonte più affidabile basata sull'evidenza accumulata.
Adattamento allo Spostamento (Tipo II): Se una regola fallisce ripetutamente (soglia $\theta=2$ ), viene invalidata e rimossa. Questo meccanismo permette di adattarsi a cambiamenti ambientali (drift) senza ri-addestramento.
RefineInterceptor: Un modulo che garantisce che le opzioni fallite non vengano mai rieseguite nello stesso episodio, eliminando i fallimenti ciclici ( $P(repeat) = 0$ ).

C. COMPASS: Evoluzione dei Prompt (Outer Loop)

COMPASS è un layer di adattamento a doppia frequenza che ottimizza i prompt di sistema:

Alta Frequenza (Monitor): Monitora ogni passo, valuta errori e applica vincoli in tempo reale.
Bassa Frequenza (Architetto): Attivato da eventi specifici (fallimenti, nuovi pattern), esegue un'evoluzione dei prompt guidata da Pareto.
Selezione Multi-Obiettivo: I candidati prompt sono valutati su due assi: Tasso di Successo ed Efficienza dei Passi. Vengono mantenuti solo i prompt non dominati (Pareto front), utilizzando la diversità di MAP-Elites per evitare la convergenza prematura su strategie subottimali.
Verifica Reale: A differenza di altri metodi che usano LLM come giudici, COMPASS valuta i prompt eseguendoli realmente nell'ambiente, ricevendo segnali binari di successo/fallimento senza esporre la soluzione corretta all'agente (evitando il leakage).

3. Contributi Chiave

Apprendimento di Regole Compositive Deterministiche: Introduce un recupero esatto $O(1)$ che permette di generalizzare a $2^N - 1 $scenari da sole$ N$ regole apprese, eliminando gli errori di interpretazione parziale.
Risoluzione Unificata dei Conflitti e Adattamento al Drift: Unisce la gestione di conflitti statici/dinamici (Tipo I) e l'adattamento a cambiamenti ambientali (Tipo II) in un unico framework basato su inferenza Bayesiana e invalidazione delle regole.
COMPASS: Un layer di ottimizzazione dei prompt che combina monitoraggio in tempo reale ed evoluzione strategica basata su criteri Pareto, valutata attraverso l'esecuzione end-to-end reale.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su tre domini complessi (Integrazione API, Prenotazioni, Logistica) con 9-10 seed indipendenti, confrontando PRECEPT con baselines avanzate (Full Reflexion, ExpeL).

Vantaggio al Primo Tentativo: PRECEPT supera Full Reflexion di +41.1 punti percentuali (pp) nel tasso di successo al primo tentativo.
Generalizzazione Compositiva: Mostra un vantaggio di +33.3pp nella generalizzazione a scenari compositi non visti.
Performance Assoluta: Raggiunge il 100% di successo (P1) nelle composizioni logistiche a 2 vie e un successo finale del 100% in logistica anche sotto conoscenza statica avversaria.
Adattamento al Drift: Recupera con un miglioramento di +55.0pp dopo un cambiamento improvviso delle regole ambientali, mentre le baselines mostrano un recupero nullo o negativo.
Efficienza: Riduce il numero medio di passi del 61% rispetto alle baselines, avvicinandosi al minimo teorico (2 passi).
Robustezza Adversaria: Mantiene prestazioni elevate anche quando la conoscenza statica è deliberatamente corrotta (adversarial static knowledge), grazie al meccanismo di risoluzione dei conflitti.

5. Significato e Impatto

PRECEPT rappresenta un cambio di paradigma rispetto all'approccio puramente basato su "prompting" o "riflessione verbale":

Struttura vs. Scala: Dimostra che la affidabilità degli agenti LLM deriva dalla struttura architetturale (recupero deterministico, gestione esplicita dei conflitti) piuttosto che dalla semplice scalabilità del modello o dalla lunghezza del contesto.
Affidabilità in Ambienti Reali: Offre garanzie formali (es. eliminazione dei fallimenti ciclici, recupero garantito dal drift) essenziali per domini ad alto rischio come la logistica, la conformità sanitaria e la regolamentazione finanziaria.
Auditabilità: A differenza delle politiche RL "black-box", le regole di PRECEPT sono esplicite, ispezionabili e modificabili, supportando l'IA responsabile.
Efficienza dei Dati: Raggiunge prestazioni superiori con un numero di tentativi di training ( $\beta=3$ ) drasticamente inferiore rispetto al RL ( $\beta=100+$ ), rendendolo praticabile per applicazioni reali con dati limitati.

In sintesi, PRECEPT trasforma gli agenti LLM da sistemi che "sperano" di ragionare correttamente a sistemi che garantiscono l'esecuzione corretta attraverso meccanismi architetturali deterministici e adattivi.