Learning in Markov Decision Processes with Exogenous Dynamics

Questo lavoro propone un approccio di apprendimento per processi decisionali di Markov con dinamiche esogene che, sfruttando la struttura in cui solo una parte dello stato è influenzata dall'agente, ottiene garanzie di regret ottimali e una maggiore efficienza nel campionamento rispetto ai metodi standard.

Davide Maran, Davide Salaorni, Marcello Restelli

Pubblicato 2026-03-05
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere il capitano di una nave in mezzo all'oceano. Il tuo compito è arrivare a destinazione nel modo più veloce ed efficiente possibile.

Nel mondo dell'Intelligenza Artificiale (e in particolare del Reinforcement Learning o Apprendimento per Rinforzo), l'IA è quel capitano. Il suo obiettivo è imparare a prendere le decisioni giuste (girare il timone, alzare le vele) per ottenere il massimo premio (arrivare prima, risparmiare carburante).

Finora, i capitoni AI erano addestrati con una regola molto semplice ma costosa: "Tutto ciò che vedi è sotto il tuo controllo".
Se la nave rallenta, l'AI pensava: "Ah, ho sbagliato io a girare il timone!". Se un'onda gigante colpiva la nave, l'AI pensava: "Devo aver fatto qualcosa di sbagliato!".
In realtà, le onde e il vento non dipendono dal capitano. Ma l'AI, non sapendo la differenza, cercava di imparare a controllare anche il vento. Risultato? Imparava lentissimo, commetteva errori e si frustrava perché cercava di risolvere problemi che non poteva risolvere.

La Grande Idea del Paper: "Smetti di cercare di controllare il meteo"

Questo paper, scritto da Davide Maran e colleghi, introduce un nuovo modo di pensare: PCMDP (Processi Decisionali di Markov Parzialmente Controllabili).

L'idea è dividere il mondo in due parti distinte:

  1. La parte che puoi controllare (Endogena): Il timone, la velocità del motore, la rotta.
  2. La parte che NON puoi controllare (Esogena): Il meteo, il traffico, il prezzo delle azioni in borsa, la domanda di energia.

L'AI deve imparare a dire: "Ok, il meteo cambia a caso e non posso farci nulla. Non perderò tempo a cercare di capirlo o a controllarlo. Mi concentrerò solo su come muovere la nave dato che il meteo è quello che è."

Le Analogie per Capire Meglio

Ecco tre scenari per visualizzare il concetto:

1. Il Tassista e il Traffico (L'esempio del Taxi)

Immagina un tassista che deve portare i passeggeri.

  • Vecchio metodo (AI classica): Il tassista pensa: "Se c'è un ingorgo, è colpa mia se ho scelto questa strada! Devo riprovare mille volte per capire come evitare il traffico". Impara lentamente perché il traffico cambia a caso ogni giorno.
  • Nuovo metodo (PCMDP): Il tassista capisce subito: "Il traffico è come il meteo. Non posso controllarlo. Posso solo controllare dove vado. Se vedo che c'è traffico, cambio strada. Non cerco di 'imparare' a eliminare il traffico, mi limito a reagire ad esso."
  • Risultato: Il tassista impara la rotta perfetta in pochi minuti invece che in anni.

2. Il Giocatore di Borsa (L'esempio del Trading)

Immagina un trader che deve vendere un sacco di azioni.

  • Vecchio metodo: Il trader pensa: "Se il prezzo crolla, è colpa mia se ho venduto troppo presto! Devo capire come creare il prezzo". Ma il prezzo di borsa è influenzato da milioni di persone e notizie globali (esogeno).
  • Nuovo metodo: Il trader sa che il prezzo è un "rumore" esterno che non può controllare. La sua unica responsabilità è gestire il suo portafoglio (endogeno). Sa che il prezzo salirà o scenderà a caso, quindi si concentra solo su quando vendere per minimizzare le perdite, accettando che il prezzo è una variabile esterna.

3. Il Controllo del Clima in un Data Center

Immagina di dover raffreddare un server.

  • Vecchio metodo: "Se fa caldo, è colpa mia! Devo imparare a controllare il sole che splende fuori."
  • Nuovo metodo: "Il sole e il traffico di dati degli utenti (esogeno) sono fuori dal mio controllo. Io controllo solo i condizionatori (endogeno). Mi adatto alle condizioni esterne invece di cercare di cambiarle."

Perché è una Rivoluzione?

Il paper dimostra matematicamente e con esperimenti che, separando queste due parti, l'AI diventa migliaia di volte più efficiente.

  • Prima: L'AI doveva esplorare tutte le combinazioni possibili tra le sue azioni e il mondo intero. Era come cercare un ago in un pagliaio gigante.
  • Ora: L'AI sa che il pagliaio (il mondo esterno) si muove da solo. Deve solo imparare a muovere l'ago (le sue azioni) in base a come si muove il pagliaio. Il "pagliaio" da esplorare diventa piccolissimo.

I Risultati Pratici

Gli autori hanno testato questa idea su tre scenari:

  1. Un tassista in città: L'AI nuova ha imparato a guidare perfettamente in pochi minuti, mentre quella vecchia ne ha impiegati migliaia.
  2. Un trader finanziario: L'AI nuova ha imparato a vendere azioni in modo ottimale molto più velocemente, evitando di "andare nel panico" come facevano le vecchie AI.
  3. Un ascensore: L'AI nuova ha imparato a gestire le persone in attesa molto meglio, capendo che l'arrivo delle persone è casuale e non dipende da lei.

In Sintesi

Questo paper ci dice che l'Intelligenza Artificiale diventa molto più intelligente quando ammette i suoi limiti. Invece di cercare di controllare tutto il mondo (cosa impossibile), impara a distinguere ciò che può cambiare da ciò che deve solo accettare e gestire.

È come dire a un capitano: "Non preoccuparti di fermare l'oceano. Impara solo a navigare al meglio sulle onde." E questo fa la differenza tra un apprendimento lento e frustrante e uno rapido ed efficace.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →