CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un robot umanoide (un "cicciottello" metallico con gambe e braccia) a camminare, saltare e arrampicarsi sulle scale. Il metodo tradizionale per insegnarglielo è il Reinforcement Learning (RL): è come dare al robot un videogioco. Se fa una mossa buona, prende un punto (ricompensa); se sbatte contro un muro o cade, perde punti o il gioco finisce.

Il problema? Il robot, per imparare velocemente, tende a fare esperimenti "pazzi". Potrebbe provare a correre dritto contro un muro per vedere cosa succede, solo per scoprire che si rompe. Nel mondo reale, questo è disastroso: il robot si danneggia e potrebbe ferire qualcuno.

La soluzione classica è mettere un "guardiano" (un filtro di sicurezza) che controlla ogni movimento del robot prima che lo esegua. Se il robot vuole fare una cosa pericolosa, il guardiano lo blocca e lo corregge. Ma c'è un difetto: il robot non impara mai davvero perché non deve fare quella cosa. Impara solo a obbedire al guardiano. Se togli il guardiano quando il robot è nel mondo reale, il robot ricomincia a fare cose pericolose perché non ha interiorizzato la regola.

Ecco che entra in gioco la CBF-RL, il metodo proposto in questo articolo.

L'Analogia: Il Genitore e il Bambino che Impara a Guidare

Immagina che il robot sia un bambino che sta imparando a guidare e il suo cervello (la politica RL) sia la sua mente che decide dove sterzare.

Il vecchio metodo (Solo Filtro): È come avere un genitore che tiene sempre il freno a mano. Ogni volta che il bambino sterza verso un precipizio, il genitore lo blocca bruscamente. Il bambino guida, ma non impara mai a sentire il pericolo. Se il genitore si addormenta (o se togli il freno), il bambino cade nel burrone.
Il vecchio metodo (Solo Ricompensa): È come dire al bambino: "Se tocchi il bordo della strada, ti tolgo i punti". Il bambino impara lentamente, ma spesso sbaglia prima di capire, e potrebbe comunque cadere nel burrone prima di imparare.
Il metodo CBF-RL (Il nuovo approccio): È una combinazione geniale.
- Il Filtro (Il Genitore Attivo): Durante l'allenamento, se il bambino sterza verso il pericolo, il genitore interviene immediatamente e corregge la sterzata in modo sicuro. Il bambino vede: "Ehi, volevo fare così, ma il genitore mi ha corretto qui".
- La Ricompensa (La Lezione): Inoltre, il genitore dà un "colpetto" (una penalità) al bambino ogni volta che deve correggerlo. Non solo lo ferma, ma gli dice: "Vedi? Quella mossa era pericolosa, ecco perché ti ho corretto e ecco perché hai perso punti".

Cosa succede di speciale?

Con CBF-RL, il robot non subisce solo la correzione; impara a prevederla.
Durante l'allenamento, il robot riceve due segnali:

La correzione fisica: "Non puoi andare lì, ecco la traiettoria sicura".
Il segnale di ricompensa: "Hai quasi sbagliato, quindi ti ho corretto. La prossima volta, cerca di non aver bisogno di questa correzione per prendere più punti".

Col tempo, il cervello del robot (la sua politica) capisce il modello: "Ah, se mi avvicino troppo all'ostacolo, il sistema mi corregge e mi toglie punti. Quindi, per essere felice e veloce, devo stare lontano dall'ostacolo fin dall'inizio."

Il Risultato: Un Robot "Autonomo e Sicuro"

La magia di questo metodo è che, una volta finito l'allenamento, non serve più il genitore.
Quando il robot umanoide (il Unitree G1 menzionato nel paper) viene messo nel mondo reale per arrampicarsi sulle scale o evitare ostacoli, non ha bisogno di un filtro di sicurezza in tempo reale.

Perché? Perché ha "interiorizzato" la sicurezza. Ha imparato a guidare da solo senza bisogno di qualcuno che tenga il freno a mano.

Nella simulazione: Il robot ha imparato a evitare i muri e a salire le scale.
Nel mondo reale: Il robot ci riesce da solo, anche se i sensori fanno un po' di rumore o le scale sono irregolari. Non cade e non sbatte contro nulla, perché la sua "mente" ha già imparato a rispettare i confini di sicurezza.

In sintesi

Il paper presenta un metodo per addestrare i robot in modo che diventino sicuri per natura, non solo perché qualcuno li controlla.

Prima: Il robot era come un bambino che guida solo se tiene qualcuno per mano.
Ora (con CBF-RL): Il robot è come un pilota esperto che sa esattamente dove sono i limiti della strada e li rispetta perché ha imparato a sentirli, senza bisogno di un supervisore esterno.

Questo è fondamentale per i robot umanoidi che devono vivere tra noi: devono essere capaci di muoversi in ambienti complessi (come scale o stanze piene di mobili) senza bisogno di un computer esterno che li controlli ogni millisecondo per evitare che si facciano male.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del documento "CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions" in lingua italiana.

Titolo

CBF-RL: Filtraggio della Sicurezza nell'Apprendimento per Rinforzo tramite Funzioni di Barriera di Controllo

1. Il Problema

L'Apprendimento per Rinforzo (RL) si è dimostrato uno strumento potente per l'addestramento di robot umanoidi e sistemi complessi, permettendo loro di acquisire abilità diverse e dinamiche. Tuttavia, l'RL tende a privilegiare le prestazioni a scapito della sicurezza. In ambienti reali, le violazioni della sicurezza possono portare a conseguenze catastrofiche (danni al robot o all'ambiente).

Esistono due approcci principali per integrare la sicurezza nell'RL, entrambi con limiti significativi:

Filtri di Sicurezza in Esecuzione (Runtime): Modificano l'azione proposta dal policy RL per garantire che rientri in un insieme sicuro (spesso risolvendo programmi quadratici, QP). Sebbene garantiscano la sicurezza a runtime, il policy appresa non "internalizza" i vincoli, rimanendo conservativa e incapace di esplorare comportamenti efficienti. Inoltre, richiede un'ottimizzazione computazionale ad ogni passo di controllo, onerosa per robot ad alta dimensionalità.
Modellazione della Ricompensa (Reward Shaping): Aggiungono penalità alle ricompense quando il sistema si avvicina a vincoli di sicurezza. Questo approccio non garantisce azioni sicure durante l'addestramento e può essere sensibile alla scelta dei pesi, portando a un addestramento lento o instabile.

L'obiettivo di questo lavoro è colmare il divario: creare policy che apprendano la sicurezza internamente durante l'addestramento, permettendo un deployment autonomo senza la necessità di filtri di sicurezza in tempo reale.

2. Metodologia: CBF-RL

Il paper propone CBF-RL, un quadro di lavoro ibrido che combina il filtraggio attivo delle azioni e la modellazione della ricompensa basata sulle Funzioni di Barriera di Controllo (CBF).

A. Fondamenti Teorici

CBF e Invarianza: Le CBF definiscono un insieme di stati sicuri $S$ come il super-livello zero di una funzione $h(q) \geq 0$ . L'obiettivo è mantenere il sistema in $S$ (invarianza in avanti).
Transizione Continuo-Discreto: Un contributo teorico chiave è la dimostrazione che i filtri di sicurezza in tempo continuo possono essere applicati efficacemente a roll-out discreti (tipici dell'RL) tramite espressioni in forma chiusa. Viene dimostrato che, per passi temporali sufficientemente piccoli ( $\Delta t$ ), le condizioni di invarianza discrete possono essere approssimate e risolte analiticamente, evitando la risoluzione numerica di QP ad ogni passo.

B. Il Framework Dual-Approach

Il metodo applica due meccanismi simultaneamente durante l'addestramento:

Filtraggio Attivo (Safety Filtering):
- Il policy RL propone un'azione desiderata $v_{policy}$ .
- Un filtro di sicurezza calcola un'azione sicura $v_{safe}$ minimizzando la distanza da $v_{policy}$ soggetta al vincolo CBF.
- Grazie alla semplificazione teorica, questo vincolo diventa un singolo QP lineare risolvibile in forma chiusa (analitica), rendendo il processo computazionalmente leggero anche in ambienti paralleli massivi (es. IsaacLab).
- L'agente esegue $v_{safe}$ nell'ambiente simulato.
Modellazione della Ricompensa (Reward Shaping):
- Viene introdotta una ricompensa di sicurezza $r_{cbf}$ che penalizza l'attivazione del filtro e incentiva il policy a proporre azioni già vicine a quelle sicure.
- La formula combina una penalità per la violazione del vincolo CBF e un termine esponenziale che premia la vicinanza tra l'azione proposta e quella filtrata:
  $r_{cbf} = \max(\dots) + (\exp(-\|v_{policy} - v_{safe}\|^2) - 1)$
- Questo fornisce un segnale di apprendimento diretto: il policy "osserva" come il filtro corregge le sue azioni e come la ricompensa cambia, imparando a evitare le correzioni.

C. Addestramento e Deployment

Addestramento: Il policy viene ottimizzato (usando PPO) utilizzando le transizioni generate con le azioni filtrate e le ricompense modificate.
Deployment: Una volta addestrato, il policy è in grado di generare azioni sicure direttamente, senza bisogno di un filtro di sicurezza in esecuzione. Il vincolo è stato "internalizzato" nella politica.

3. Contributi Chiave

Concettuale: Proposta di un framework di addestramento duale che integra filtraggio attivo e ricompense ispirate alle barriere, permettendo il deployment senza filtri runtime.
Teorico: Analisi della relazione tra CBF in tempo continuo e aggiornamenti discreti dell'RL, fornendo una soluzione in forma chiusa per l'integrazione leggera.
Pratico: Validazione empirica su simulazioni e hardware (robot umanoide Unitree G1), dimostrando che le policy addestrate con questo metodo riducono le azioni insicure e operano in sicurezza in scenari reali complessi senza filtri runtime.

4. Risultati Sperimentali

A. Task di Navigazione (Integratore Singolo)

Confronto: Sono stati testati quattro varianti: Dual (proposto), Reward Only, Filter Only, e Nominal.
Risultati:
- L'approccio Dual ha mostrato una convergenza rapida e ha mantenuto la sicurezza durante tutto l'addestramento.
- L'approccio Filter Only ha funzionato bene solo con il filtro attivo, ma è fallito drasticamente (38.7% di successo) quando il filtro è stato rimosso al deployment.
- L'approccio Dual ha mantenuto un'alta percentuale di successo (92.7%) anche senza filtro runtime, dimostrando l'internalizzazione della sicurezza.
- La robustezza è stata testata con randomizzazione del dominio (rumore dinamico): il metodo Dual ha subito la minore degradazione delle prestazioni.

B. Sperimentazione Hardware: Robot Umanoide Unitree G1

Il framework è stato applicato a compiti di locomozione complessi:

Evitamento Ostacoli: Il robot ha evitato ostacoli cilindrici in movimento, modulando la propria velocità anche quando il comando di velocità originale avrebbe causato una collisione.
Arrampicata su Scale:
- Il robot è stato addestrato a salire scale con alzata (riser) di 0.14m e 0.3m.
- La policy Nominal (senza CBF) ha fallito, facendo inciampare il robot o colpendo i gradini con i piedi.
- La policy CBF-RL ha salito e sceso scale con successo, adattando l'altezza del passo e l'orientamento del torso basandosi solo sulla propriocettione (senza percezione del terreno esterna per le scale).
- Test esterni su scale in cemento con diverse rugosità e dimensioni hanno confermato la robustezza del metodo.

5. Significato e Impatto

Il lavoro CBF-RL rappresenta un passo avanti significativo verso l'RL sicuro per sistemi robotici ad alta dimensionalità.

Efficienza Computazionale: Elimina la necessità di risolvere ottimizzazioni costose (QP) in tempo reale durante il deployment, rendendo il sistema adatto a robot con vincoli computazionali stretti.
Internalizzazione della Sicurezza: Trasforma la sicurezza da un vincolo esterno imposto a una proprietà intrinseca della politica appresa, permettendo un'esplorazione più ricca e comportamenti più efficienti rispetto ai metodi puramente filtrati.
Validazione Reale: La dimostrazione su un umanoide fisico in scenari non strutturati (scale esterne, ostacoli dinamici) senza filtri runtime conferma la fattibilità pratica dell'approccio per applicazioni critiche.

In sintesi, CBF-RL risolve il compromesso tra sicurezza garantita e apprendimento efficiente, permettendo ai robot di imparare a essere sicuri di per sé, piuttosto che dipendere da un "guardiano" esterno a tempo di esecuzione.