Autores originais: Ruiqi Xue, Lei Yuan, Kainuo Cheng, Jing-Wen Yang, Yang Yu

Publicado 2026-05-05

📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Ruiqi Xue, Lei Yuan, Kainuo Cheng, Jing-Wen Yang, Yang Yu

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a dirigir um carro. A maneira usual de ensinar um robô é deixá-lo dirigir, cometer erros, bater em coisas e aprender com esses acidentes. Mas, no mundo real, você não pode deixar um robô bater em uma parede ou em um pedestre apenas para ver o que acontece. Isso é perigoso demais.

Então, em vez disso, você fornece ao robô um conjunto de dados de registros de direção coletados por um motorista humano que foi muito cuidadoso e nunca bateu. O robô só vê direção "segura".

O Problema: A Armadilha do "Quase-Acidente"
Aqui está a parte complicada: apenas porque o robô nunca viu um acidente nos dados, não significa que ele sabe como um acidente parece antes de acontecer.

Imagine um carro dirigindo em direção a uma parede. No conjunto de dados, o motorista humano sempre freou apenas antes de bater na parede. O robô vê o carro parando com segurança. Mas o robô não percebe que, se não freasse, ele bateria em dois segundos. Ele pensa: "Ah, dirigir nessa velocidade é tudo bem!" porque nunca viu o acidente.

Este é o problema central que o artigo aborda: Como ensinar segurança quando você não tem exemplos de perigo, apenas exemplos de pessoas evitando-o por pouco?

A Solução: PROCO (O Simulador "E Se")
Os autores propõem um novo método chamado PROCO. Pense nele como um treinador de segurança que usa duas ferramentas principais: uma Bola de Cristal (um modelo de como o mundo funciona) e um Manual de Segurança (escrito por uma IA superinteligente).

Veja como funciona, passo a passo:

1. A Bola de Cristal (O Modelo de Dinâmica)

Primeiro, o robô aprende uma "Bola de Cristal" a partir dos registros de direção segura. Isso não é mágica; é um modelo matemático que prevê: "Se eu estou aqui e giro o volante desta maneira, onde estarei no próximo segundo?"

A Analogia: É como um simulador de voo. O robô aprende a física do carro para poder imaginar cenários futuros sem realmente dirigí-los.

2. O Manual de Segurança (A Função de Custo do LLM)

Em seguida, o robô precisa saber o que significa "inseguro". Como não há dados de acidentes, os pesquisadores pedem a um Modelo de Linguagem Grande (LLM) — uma IA superinteligente que lê e entende a linguagem humana — que escreva um "Manual de Segurança".

O Prompt: Eles dizem ao LLM: "Aqui está a regra: Não bata na parede. Mas, por favor, seja extra cauteloso. Se você estiver perto da parede, trate como se já tivesse batido nela."
O Resultado: O LLM escreve uma função de computador (um trecho de código) que atua como uma "Função de Custo". Ela atribui uma alta "pontuação de penalidade" não apenas a bater na parede, mas a estar perigosamente perto dela. Isso cria uma "zona de segurança".

3. O Jogo "E Se" (Execuções Proativas)

Agora vem a parte inteligente. O robô usa sua Bola de Cristal para simular a direção para frente a partir dos dados seguros que possui. Ele pergunta: "Se eu continuar em linha reta a partir deste ponto seguro, o que acontece?"

Por causa do Manual de Segurança, o simulador sabe que chegar perto da parede é ruim.
O simulador executa esses cenários "E Se" e gera dados de acidentes falsos. Ele cria milhares de exemplos de "quase-acidentes" e "acidentes" que nunca aconteceram no mundo real, mas são previstos matematicamente para acontecer.

4. Aprendendo com os Falsos

Finalmente, o robô treina neste novo conjunto de dados misto:

Os dados reais seguros originais.
Os dados de "acidente" simulados gerados pela Bola de Cristal e sinalizados pelo Manual de Segurança.

Ao treinar nesses perigos simulados, o robô aprende a reconhecer a "zona de perigo" (os estados que levariam a um acidente) e aprende a ficar longe deles, mesmo que nunca tenha realmente batido no mundo real.

Por que isso é melhor?

Método Antigo: Se você mostrar apenas dados seguros a um robô, ele pode pensar que "dirigir rápido perto da parede é seguro" porque nunca viu um acidente. Ele pode desviar para a zona de perigo e bater quando for implantado.
Método PROCO: Ele cria proativamente os cenários de perigo dos quais precisa aprender. Ele efetivamente diz: "Sei que ainda não bati, mas minha Bola de Cristal me diz que vou bater se não diminuir a velocidade agora."

Os Resultados

Os autores testaram isso em 17 tarefas diferentes de robôs (como dirigir um carro, mover um braço robótico ou nadar).

Eles compararam o PROCO com outros métodos avançados que tentaram aprender segurança a partir dos mesmos dados "apenas seguros".
O Resultado: O PROCO foi dramaticamente melhor. Em muitos casos, reduziu as violações de segurança (acidentes) em mais de 400% em comparação com os outros métodos. Ele aprendeu a permanecer seguro de forma muito mais confiável porque pôde "ver" os perigos futuros que os outros métodos não conseguiam.

Em resumo: O PROCO é uma maneira de ensinar um robô a ser seguro, permitindo que ele jogue um jogo "E Se" usando um simulador e um guia linguístico inteligente, para que ele aprenda a evitar desastres que nunca experimentou na realidade.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Geração Proativa de Custos Baseada em Modelo para Aprendizado de Políticas Seguras Offline com Dados Limitados de Violação

1. Declaração do Problema

O Aprendizado por Reforço (RL) Seguro visa derivar políticas que satisfaçam restrições de segurança predefinidas, o que é crítico para aplicações como direção autônoma e robótica. Embora o RL seguro offline ofereça um paradigma para aprender a partir de conjuntos de dados pré-coletados sem exploração online arriscada, os métodos existentes enfrentam uma limitação fundamental em cenários de alto risco: a escassez ou ausência total de amostras inseguras.

Em muitos processos práticos de coleta de dados (por exemplo, manipulação robótica), intervenções externas frequentemente impedem que os agentes alcancem estados inseguros, resultando em conjuntos de dados compostos quase inteiramente por trajetórias seguras. Métodos convencionais de RL seguro offline, que dependem do aprendizado de funções de valor de custo a partir de abundantes amostras inseguras para definir limites de segurança, falham nesse cenário. Eles tendem a tratar todos os dados observados como uniformemente seguros, ignorando estados "seguros, mas inviáveis" — estados que atualmente satisfazem as restrições, mas inevitavelmente as violam em poucos passos devido à dinâmica (por exemplo, inércia). Essa omissão leva a falhas na implantação de políticas, onde os agentes derivam para regiões inseguras.

O desafio central é: Como podemos aprender uma política segura offline quando as amostras inseguras são escassas ou totalmente ausentes?

2. Metodologia: PROCO

Os autores propõem o PROCO (Geração Proativa de Custos Baseada em Modelo), um framework de RL seguro offline baseado em modelo projetado para identificar estados inviáveis e aprender políticas seguras a partir de conjuntos de dados com poucas ou nenhuma amostra insegura. A metodologia integra três componentes-chave:

A. Geração de Função de Custo Conservadora Assistida por LLM

Para preencher a lacuna causada pela falta de dados inseguros, o PROCO aproveita Modelos de Linguagem Grande (LLMs) para incorporar conhecimento em linguagem natural no processo de aprendizado.

Entrada: O LLM recebe informações da tarefa ( $L_{task}$ ), uma descrição em linguagem natural das restrições de segurança ( $L_{cost}$ ) e instruções explícitas ( $L_{inst}$ ) para gerar uma função de custo que seja mais conservadora do que a definição estrita da restrição.
Saída: Uma função Python $\bar{c}$ que rotula estados como inseguros (1) ou seguros (0).
Validação e Loop de Feedback: Como as saídas do LLM podem ser pouco confiáveis, o PROCO emprega um mecanismo de validação:
1. Verificação de Segurança: A função de custo gerada é validada contra um pequeno conjunto de amostras inseguras conhecidas ( $D_{unsafe}$ , $\le 100$ amostras). Ela deve atingir 100% de precisão nessas para garantir que nenhum estado inseguro conhecido seja ignorado.
2. Verificação de Conservadorismo: A função é avaliada no conjunto de dados seguro ( $D$ ). A proporção de amostras seguras rotuladas como inseguras é medida. Se essa proporção cair dentro de um intervalo controlado por hiperparâmetros $[p_{min}, p_{max}]$ , a função é aceita.
3. Refinamento: Se a função for muito conservadora ou não conservadora o suficiente, uma descrição de feedback ( $L_{feed}$ ) é gerada e enviada de volta ao LLM para refinar a função de custo.

B. Identificação de Viabilidade Baseada em Modelo de Dinâmica

O PROCO aprende um modelo de dinâmica em conjunto $\hat{T}$ a partir dos dados offline. Para identificar estados inviáveis sem violações observadas, ele realiza rolagens de modelo ramificadas:

A partir de amostras de dados offline, o modelo simula trajetórias futuras.
Um operador de Bellman viável conservador ( $\bar{B}^*$ ) é introduzido. Diferentemente dos operadores padrão, $\bar{B}^*$ considera a transição de pior caso dentro do conjunto de modelos de dinâmica para garantir robustez contra incerteza do modelo.
Esse processo gera proativamente diversas amostras inseguras contrafactuais. Ao rotular estados próximos a estados inseguros reais como inseguros (via a função de custo conservadora), o método efetivamente encurta os passos de transição de estados inviáveis para estados inseguros, reduzindo o impacto de erros do modelo na identificação de viabilidade.

C. Pipeline de Aprendizado de Política

Aumento de Dados: O modelo de dinâmica aprendido $\hat{T}$ e a função de custo conservadora $\bar{c}$ são usados para realizar rolagens de modelo. Trajetórias contendo violações de segurança (de acordo com $\bar{c}$ ) são adicionadas a um conjunto de dados sintético $D_{\hat{T}}$ .
Reetiquetagem: O conjunto de dados offline $D$ é reetiquetado com custos de violação de restrição usando $\bar{c}$ .
Atualização da Função de Valor: O algoritmo atualiza a função de valor de violação de restrição ( $V_h$ ) e a função de valor-ação ( $Q_h$ ) usando o conjunto de dados combinado ( $D \cup D_{\hat{T}}$ ). Ele emprega regressão expectile reversa para aproximar o operador de minimização na atualização de Bellman viável.
Otimização da Política: A política é atualizada usando o conjunto de dados offline original $D$ , guiada pelos críticos de custo aprendidos a partir dos dados aumentados.

3. Contribuições Principais

Formulação do Problema: O artigo identifica e formaliza o desafio de aprender políticas seguras a partir de conjuntos de dados "apenas seguros", onde estados inviáveis são indistinguíveis de estados seguros sem amostras inseguras.
Integração Conhecimento-Dados: Introduz um novo framework (PROCO) que integra especificações de segurança em linguagem natural (via LLMs) com dados offline empíricos para gerar funções de custo conservadoras, permitindo estimativa de risco sem violações observadas.
Identificação Proativa de Viabilidade: Ao combinar um modelo de dinâmica aprendido com uma função de custo conservadora, o PROCO sintetiza amostras inseguras contrafactuais para identificar estados inviáveis, abordando o ponto cego "seguro, mas inviável" dos métodos existentes.
Garantias Teóricas: Os autores fornecem análise teórica (Teorema 4.8) demonstrando que integrar o PROCO a qualquer algoritmo baseline de RL seguro offline não degrada o desempenho de segurança devido à subestimação de valores de segurança, mesmo sem suposições sobre a magnitude do erro do modelo.

4. Resultados Experimentais

Os autores avaliaram o PROCO em 17 tarefas do benchmark Safety-Gymnasium (tarefas de Navegação e Velocidade) usando o conjunto de dados OSRL, construindo especificamente conjuntos de dados "apenas seguros" removendo todos os dados inseguros.

Desempenho: O PROCO superou significativamente os algoritmos originais de RL seguro offline (FISOR, LSPC, CAPS) e as bases de clonagem de comportamento (BC, CDT) em conjuntos de dados apenas seguros.
- Alcançou melhoria superior a 400% no desempenho de segurança em vários algoritmos, com algumas tarefas mostrando melhorias superiores a 1000%.
- No estudo de caso "Ant Circle", o PROCO identificou com sucesso estados inviáveis próximos ao limite de segurança e alcançou zero violações de segurança, enquanto as bases falharam em distinguir estados viáveis de inviáveis e incorreram em violações significativas.
Robustez: O método permaneceu eficaz mesmo quando a quantidade de dados inseguros disponíveis era extremamente limitada (por exemplo, 10% do conjunto de dados inseguros original).
Estudos de Ablação:
- A remoção do modelo de dinâmica ou da geração de função de custo conservadora levou a quedas significativas no desempenho de segurança.
- O mecanismo de feedback para a função de custo gerada pelo LLM foi crucial para alcançar o nível desejado de conservadorismo.
- O método mostrou estabilidade em diferentes LLMs (GPT-o4-mini, Gemini 2.5 Pro), embora o desempenho tenha variado ligeiramente.

5. Significado e Alegações

O artigo afirma que o PROCO aborda um gargalo crítico na implantação de RL seguro em ambientes do mundo real de alto risco, onde coletar dados inseguros é inviável ou perigoso. Ao aproveitar LLMs para traduzir restrições de segurança em linguagem natural em funções de custo conservadoras e usar rolagens de modelo para explorar proativamente falhas potenciais, o PROCO permite o aprendizado de políticas seguras a partir de conjuntos de dados que, de outra forma, seriam insuficientes para tomada de decisão crítica de segurança.

Os autores enfatizam que sua abordagem não requer amostras inseguras para aprender uma política segura, tornando-a adequada para cenários onde os dados são coletados via teleoperação humana ou intervenção externa que previne colisões. Eles concluem que, embora o método atualmente dependa de observações baseadas em estado e LLMs, ele representa um passo significativo em direção ao RL seguro offline orientado por conhecimento. Sugere-se trabalho futuro para estender isso a tarefas visuais usando Modelos Visão-Linguagem (VLMs).

Model-Based Proactive Cost Generation for Learning Safe Policies Offline with Limited Violation Data