CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô humanoide (como um robô que parece e se move como um humano) a andar, pular e subir escadas usando Aprendizado por Reforço (RL). Pense no RL como um método de "tentativa e erro" muito inteligente: o robô tenta fazer coisas, ganha pontos se fizer bem e perde pontos se errar.

O problema é que, para aprender rápido, o robô às vezes precisa tentar coisas perigosas. Se ele tentar subir uma escada muito alta sem cuidado, ele pode cair, quebrar as pernas do robô ou machucar alguém.

Aqui entra o CBF-RL, a solução proposta neste artigo. Vamos explicar como funciona usando uma analogia simples: O "Mestre de Dança" e o "Instrutor de Segurança".

1. O Problema: O Aluno Impulsivo

Imagine que o robô é um aluno de dança muito talentoso, mas um pouco impulsivo. Ele quer aprender a coreografia (andar, subir escadas) o mais rápido possível.

O jeito antigo (RL puro): O aluno tenta dançar. Se ele quase cair, o professor grita "Não!". Mas o aluno só aprende a não cair depois de ter caído várias vezes. Em robôs reais, cair pode ser catastrófico (quebrar o robô).
O jeito intermediário (Filtros de Segurança): Imagine que, a cada passo que o aluno dá, um instrutor de segurança (um filtro) segura o braço dele e o impede de cair. O aluno nunca cai, mas ele não aprende a manter o equilíbrio sozinho. Se o instrutor sumir no dia do show (na implantação real), o aluno cai imediatamente. Além disso, o instrutor precisa ficar lá o tempo todo, o que é caro e lento.

2. A Solução: CBF-RL (O Treinamento Duplo)

Os autores propõem uma nova abordagem chamada CBF-RL. Eles usam duas ferramentas ao mesmo tempo durante o treinamento:

A. O "Filtro de Segurança" (O Instrutor que Corrige)

Durante o treino, quando o robô (o aluno) propõe um movimento perigoso (como dar um passo muito largo perto de uma borda), um sistema matemático chamado Função de Barreira de Controle (CBF) age como um instrutor de segurança.

Como funciona: O robô diz: "Vou dar um passo para a esquerda". O sistema CBF calcula: "Isso vai te fazer cair". Então, o sistema corrige instantaneamente o passo para algo seguro, como se fosse um "puxão" suave no braço.
A mágica: O robô vê o movimento que ele queria fazer e o movimento seguro que ele teve que fazer. Ele aprende a diferença.

B. O "Prêmio e a Multa" (O Sistema de Recompensa)

Além de corrigir o movimento, o sistema muda a pontuação (recompensa) do jogo.

Se o robô propõe um movimento que precisou de correção, ele recebe uma multa (menos pontos).
Se ele propõe um movimento que já é seguro, ele ganha pontos extras.
O objetivo: O robô aprende que, para ganhar mais pontos, ele precisa pensar antes de agir e propor movimentos que já sejam seguros, em vez de depender do instrutor para corrigi-lo.

3. O Resultado: O Aluno que Aprende a Dançar Sozinho

A grande inovação do CBF-RL é que, após o treinamento, o robô não precisa mais do instrutor de segurança.

Antes: O robô era como um piloto de avião que só sabia voar se um computador de segurança estivesse corrigindo cada movimento dele.
Com CBF-RL: O robô "internalizou" a segurança. Ele aprendeu a coreografia com as regras de segurança em mente. Ele sabe onde está o limite e como se equilibrar.

4. A Prova Real: O Robô Unitree G1

Os autores testaram isso em um robô humanoide real chamado Unitree G1.

O Desafio: Fazer o robô desviar de obstáculos e subir escadas (inclusive escadas altas e irregulares).
O Teste: Eles treinaram o robô no computador (simulação) e depois o colocaram no mundo real, sem o sistema de segurança ativo durante a execução.
O Resultado: O robô treinado com CBF-RL conseguiu subir escadas e desviar de obstáculos com segurança, mesmo com ruídos nos sensores e sem o "instrutor" segurando-o. Os robôs treinados apenas com o método antigo (ou apenas com filtros) falharam ou caíram quando o filtro foi removido.

Resumo em uma Frase

O CBF-RL é como ensinar um robô a andar não apenas dizendo "não caia", mas corrigindo seus passos em tempo real enquanto ele aprende e dando pontos extras para quem pensa antes de agir. O resultado é um robô que aprende a ser seguro por si mesmo, pronto para o mundo real sem precisar de um "babá" matemático o tempo todo.

Each language version is independently generated for its own context, not a direct translation.

Título: CBF-RL: Filtragem de Segurança em Aprendizado por Reforço com Funções de Barreira de Controle (CBF)

1. Problema

O Aprendizado por Reforço (RL) é uma ferramenta poderosa para o desenvolvimento de comportamentos complexos em robôs humanoides, mas tende a priorizar o desempenho em detrimento da segurança. Em ambientes do mundo real, violações de segurança podem levar a consequências catastróficas (danos ao robô ou ao ambiente).
Existem duas abordagens principais para integrar segurança no RL, ambas com limitações:

Filtros de Segurança em Tempo de Execução (Runtime): Modificam a ação proposta pelo agente antes da execução para garantir que esteja dentro de um conjunto seguro. Embora garantam segurança, isso impede que a política aprenda a internalizar as restrições, limitando a exploração e exigindo a presença contínua do filtro (o que é computacionalmente custoso e problemático em sistemas de alta dimensão com ruído de sensores).
Moldagem de Recompensa (Reward Shaping): Penaliza estados próximos a violações. Sozinha, não garante ações seguras durante o treinamento e é sensível à escolha dos pesos de penalidade, muitas vezes resultando em treinamento lento ou instável.

O desafio central é criar um método que permita ao agente aprender a internalizar as restrições de segurança durante o treinamento, de modo que ele possa operar de forma segura no mundo real sem a necessidade de um filtro de segurança ativo em tempo de execução.

2. Metodologia: CBF-RL

O artigo propõe o CBF-RL, uma estrutura de treinamento "dual" que combina filtragem ativa de segurança e moldagem de recompensa inspirada em barreiras.

A. Fundamentos Teóricos (Contínuo vs. Discreto)
O trabalho estabelece uma relação teórica entre Funções de Barreira de Controle (CBFs) em tempo contínuo e atualizações discretas do ambiente de RL.

Demonstra-se que, para passos de tempo ( $\Delta t$ ) suficientemente pequenos, as condições de CBF de tempo contínuo podem ser aplicadas diretamente em ambientes de RL discretos.
Isso permite o uso de soluções analíticas de fechamento (closed-form) para problemas de otimização de CBF, evitando a necessidade de resolver programas quadráticos (QP) iterativos a cada passo, o que seria computacionalmente proibitivo em ambientes massivamente paralelos.

B. Componentes do Treinamento
O framework CBF-RL opera em dois pilares simultâneos durante o treinamento:

Filtragem de Segurança (Safety Filtering):
- A política nominal do RL propõe uma ação $v_{policy}$ .
- Um filtro de segurança calcula uma ação filtrada $v_{safe}$ minimamente modificada para satisfazer a condição de CBF.
- A solução é dada por uma projeção analítica simples (equação 20 no texto), baseada na desigualdade linear $\nabla h(q)^\top v \geq -\alpha h(q)$ .
- O agente executa $v_{safe}$ no ambiente, mas observa a ação original $v_{policy}$ e a correção aplicada.
Moldagem de Recompensa (Reward Shaping):
- Adiciona-se um termo de recompensa de segurança ( $r_{cbf}$ ) à recompensa nominal.
- Este termo penaliza a ativação do filtro (quando a ação proposta viola a segurança) e incentiva a política a propor ações que já estejam próximas da ação segura, reduzindo a necessidade de intervenção.
- A fórmula combina uma penalidade linear para violações e um termo exponencial suave para incentivar a proximidade com a ação segura.

C. Arquitetura de Treinamento

Utiliza-se o algoritmo PPO (Proximal Policy Optimization).
Emprega-se Modelos de Ordem Reduzida (Reduced-Order Models) para definir as funções de barreira (ex: posição do centro de massa ou posição do pé), tornando o cálculo viável para sistemas de alta dimensão como humanoides.
Utiliza-se Randomização de Domínio (Domain Randomization) para garantir robustez contra incertezas dinâmicas e ruído de sensores.

3. Contribuições Principais

Conceitual: Proposta de um framework de treinamento dual que integra filtragem ativa e recompensas de barreira, permitindo a implantação de políticas seguras sem filtros em tempo de execução.
Teórica: Prova de que filtros de segurança em tempo contínuo podem ser implementados via expressões de fechamento em rolagens (rollouts) de tempo discreto, validando a aproximação para sistemas de RL.
Prática: Demonstração empírica em simulação e hardware (robô humanoide Unitree G1) de que a política aprendida internaliza as restrições, permitindo exploração segura, convergência mais rápida e desempenho robusto em tarefas complexas (esquiva de obstáculos e subida de escadas) sem filtro de runtime.

4. Resultados e Validação

A. Tarefa de Navegação 2D (Integrador Simples)

Ablação: Comparação entre métodos: Nominal, Apenas Recompensa, Apenas Filtro, e Dual (CBF-RL).
Desempenho: O método Dual e o método "Apenas Filtro" convergiram rapidamente e mantiveram-se seguros durante o treinamento.
Generalização: O método Dual foi o único que manteve alta taxa de sucesso (99%) ao ser implantado sem filtro de runtime, mesmo em cenários com ruído dinâmico. Métodos que usaram apenas filtragem durante o treinamento falharam drasticamente (38% de sucesso) sem o filtro ativo na implantação.

B. Experimentos com Robô Humanoide (Unitree G1)

Tarefas: Esquiva de obstáculos e subida de escadas (incluindo escadas altas de 0.3m).
Sim-to-Real: Políticas treinadas no IsaacLab foram transferidas para o hardware real sem ajuste fino (zero-shot).
Resultados:
- O robô conseguiu evitar obstáculos e subir escadas com sucesso, ajustando sua velocidade e altura do pé com base apenas na percepção proprioceptiva (sem filtro de segurança ativo).
- Políticas nominais (sem CBF-RL) colidiam com obstáculos ou tropeçavam ao tentar subir escadas altas.
- O robô demonstrou robustez em ambientes externos com escadas de diferentes texturas e dimensões.

5. Significado e Impacto

O CBF-RL representa um avanço significativo na aplicação de RL seguro em robótica de alta dimensão.

Eliminação de Dependência de Filtros: Ao internalizar a segurança na política, remove-se a necessidade de um módulo de segurança computacionalmente pesado e potencialmente falho em tempo de execução, o que é crucial para robôs com restrições de latência e ruído de sensores.
Exploração Segura: Permite que o agente explore mais perto dos limites de segurança durante o treinamento (devido à filtragem ativa), acelerando a aprendizagem de comportamentos complexos que seriam impossíveis de descobrir apenas com penalidades de recompensa.
Aplicabilidade Real: A validação em um robô humanoide real em tarefas complexas (escadas) demonstra a viabilidade de levar RL seguro para o mundo real, superando as limitações de abordagens puramente baseadas em modelos ou apenas em recompensas.

Em resumo, o CBF-RL oferece uma ponte prática entre a garantia formal de segurança das Funções de Barreira de Controle e a capacidade de aprendizado expressivo do RL, resultando em agentes autônomos que são intrinsecamente seguros.