Diffusion-SAFE: Diffusion-Native Human-to-Robot Driving Handover for Shared Autonomy

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está dirigindo um carro de corrida em uma pista complexa. De repente, você vê uma curva fechada e decide fazer uma manobra arriscada para ganhar tempo. O carro, que tem um "copiloto" inteligente, percebe que essa manobra pode te fazer bater ou sair da pista.

O que o carro faz? Ele não simplesmente tira a chave da sua mão e assume o controle de forma brusca (o que assustaria você), nem mistura suas intenções com as dele de um jeito confuso (o que poderia fazer o carro girar e bater).

Em vez disso, ele usa uma tecnologia chamada Diffusion-SAFE. Vamos explicar como isso funciona usando analogias do dia a dia:

1. O Cenário: A Dança do Controle

Pense no sistema como uma dança entre você (o humano) e o robô (o copiloto).

O Problema: Às vezes, humanos tomam decisões perigosas sem perceber. Se o robô apenas misturasse seus comandos com os dele (como misturar água e óleo), o resultado poderia ser um movimento estranho e perigoso. Se ele tirasse o controle de uma vez só, você ficaria chocado.
A Solução: O Diffusion-SAFE cria uma transição suave e segura, onde o robô vai "empurrando" o carro de volta para a segurança, sem que você sinta um puxão brusco.

2. Os Dois "Mestres de Cerimônias" (Os Modelos de Difusão)

O sistema usa dois cérebros artificiais baseados em uma tecnologia chamada Modelos de Difusão (a mesma usada para criar imagens de IA, mas aqui usada para prever movimentos).

O Avaliador (O "Detetive"):
- O que faz: Ele olha para o seu histórico de direção e tenta adivinhar o que você vai fazer nos próximos segundos. Ele é como um detetive que diz: "Ei, pelo jeito que você está virando o volante, você vai bater naquela parede!"
- Ação: Se ele sentir risco, ele dá o sinal de alerta para o copiloto.
O Copiloto (O "Piloto de Segurança"):
- O que faz: Ele é um piloto experiente que só pensa em segurança. Ele sabe exatamente como dirigir para não bater em nada.
- Ação: Quando o detetive avisa o perigo, o copiloto entra em ação.

3. A Magia da "Difusão Parcial" (O Botão de Controle)

Aqui está a parte mais criativa. Como o robô assume o controle sem te assustar?

Imagine que o plano de direção do humano é uma foto borrada de uma paisagem bonita, mas com um obstáculo perigoso nela. O robô quer transformar essa foto em uma imagem perfeita e segura.

O Processo: Em vez de apagar a sua foto e colocar uma nova do zero (o que seria um "hard switch" ou troca brusca), o robô usa um truque de IA chamado difusão.
- Ele pega a sua intenção (sua direção) e adiciona um pouco de "ruído" (como se estivesse borrando a imagem um pouquinho).
- Depois, ele usa o "Copiloto" para "des-borrar" essa imagem, guiando-a suavemente para uma direção segura.
O Botão $\rho$ (Rô): Existe um botão imaginário chamado $\rho$ $ρ$ .
- Se o botão está no 0, o carro segue exatamente o que você quer (mesmo que seja perigoso).
- Se o botão está no 1, o carro segue exatamente o que o robô quer (totalmente seguro).
- O segredo é que o robô aumenta esse botão gradualmente. Ele começa borrando um pouquinho a sua ideia e a corrigindo. Aos poucos, ele borrava mais e corrige mais, até que o carro está seguindo o caminho seguro do robô, mas você mal percebeu a mudança porque foi uma transição fluida.

4. Por que isso é melhor do que misturar ações?

Imagine que você quer virar para a esquerda para desviar de um buraco, e o robô quer virar para a direita para desviar de uma árvore.

Mistura simples (o jeito antigo): O carro faz um movimento meio para a esquerda, meio para a direita. Resultado? O carro vai reto e bate no buraco.
Diffusion-SAFE (o jeito novo): O robô não mistura os movimentos. Ele reescreve o plano inteiro de forma segura. Ele diz: "Ok, você queria virar para a esquerda, mas vamos ajustar essa curva para que você desvie do buraco sem bater na árvore". O resultado é um movimento único, coerente e seguro.

5. O Resultado na Vida Real

Os pesquisadores testaram isso em simuladores de corrida e em um carro de verdade (um carro de corrida pequeno controlado por computador).

Sucesso: Em 93% das vezes no simulador e 87% na vida real, o sistema conseguiu pegar o controle de forma segura quando o humano estava prestes a ter um acidente.
Conforto: A transição foi tão suave que o carro não deu "trancos" (jerk), mantendo a viagem confortável.

Resumo em uma frase

O Diffusion-SAFE é como um copiloto de IA que, ao perceber que você vai bater, não tira o volante da sua mão com força, mas sim "pinta" uma nova trajetória segura sobre a sua, borrando e corrigindo seus movimentos suavemente até que o carro esteja totalmente seguro, tudo isso sem você sentir uma mudança brusca.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A autonomia compartilhada em veículos exige que um sistema assistivo antecipe o comportamento humano, identifique riscos antes que se tornem inevitáveis e transfira o controle de forma suave e segura. No entanto, existem desafios críticos:

Inconsistência Humana: O comportamento do motorista é multimodal, inconsistente e pode mudar abruptamente, especialmente em condições fora da distribuição (OOD).
O Dilema da Suavidade vs. Segurança: Muitos métodos atuais buscam a suavidade através da mistura de ações (blending) no nível de controle (ex: interpolar entre o comando do humano e do robô). O problema é que o conjunto de ações seguras em direção ao veículo é frequentemente não convexo. Misturar duas ações individualmente seguras (ex: desviar para a esquerda e para a direita) pode resultar em uma ação insegura (ex: ir em linha reta contra um obstáculo).
Limitações de Gatilho: Estratégias atuais dependem de sinais momentâneos (como olhar ou postura) ou limiares manuais, carecendo de capacidade preditiva de longo horizonte.

2. Metodologia: Diffusion-SAFE

O autores propõem o Diffusion-SAFE, um framework de autonomia compartilhada em malha fechada baseado em dois modelos de difusão que operam no espaço de planos (trajetórias), evitando a mistura direta de ações.

A. Arquitetura de Dois Modelos

Avaliador (Evaluator):
- Um modelo de difusão que prevê distribuições multimodais de intenções humanas.
- Entrada: Histórico de observações ( $O_t$ ) e histórico de ações humanas passadas ( $A^H_t$ ).
- Função: Gera múltiplos cenários futuros de intenção humana para detectar riscos probabilísticos.
Piloto Automático Seguro (Safety-Guided Copilot):
- Um modelo de difusão treinado para gerar planos de especialistas (seguros).
- Entrada: Apenas observações ( $O_t$ ).
- Função: Gera planos seguros guiados por um gradiente de um certificado de segurança.

B. Mecanismo de Transferência de Controle (Handover)

A inovação central é a transferência de controle via difusão parcial (partial diffusion), operando no espaço de planos e não no espaço de ações:

Mecanismo: Quando o risco é detectado, o plano humano é "ruidado" (forward-noised) para um nível intermediário definido por uma razão de difusão $\rho$ . Em seguida, o processo de denoising (remoção de ruído) é iniciado a partir desse ponto intermediário pelo Copilot.
O "Botão" de Controle ( $\rho$ ):
- $\rho = 0$ : O plano é puramente humano.
- $\rho = 1$ : O plano é puramente do Copilot (difusão completa a partir de ruído gaussiano).
- $0 < \rho < 1$: O plano é uma transição suave onde a informação da intenção humana é preservada, mas o processo é guiado para regiões seguras.
Vantagem: Isso evita a "armadilha de mistura insegura" (mixed-unsafe pitfall) porque a correção ocorre no espaço de planos latentes, projetando a trajetória para a manifold de distribuição segura do Copilot, em vez de misturar vetores de ação convexamente.

C. Guia de Segurança (Safety Guidance)

Utiliza um Certificado de Segurança baseado em mapas (Campo de Distância Assinada - SDF), onde $V(p) > 0$ dentro da pista e $V(p) \le 0$ fora.
Durante o processo reverso de difusão (denoising), o gradiente do custo de segurança ( $\nabla J_{safe}$ ) é injetado em cada passo para empurrar a trajetória gerada para regiões de alta segurança, sem necessidade de re-treinamento do modelo.

3. Contribuições Principais

Framework de Malha Fechada: Integração de um avaliador para detecção de risco e um piloto automático guiado por segurança para geração de planos.
Mecanismo Nativo de Difusão: A transferência de controle via difusão parcial permite uma transição suave e contínua sem a mistura convexa de ações, garantindo segurança mesmo em conjuntos de ações não convexas.
Validação Robusta: Demonstração bem-sucedida tanto em simulação (CarRacing-v2) quanto em um carro de corrida real baseado em ROS, com taxas de sucesso de transferência de controle superiores a 87%.

4. Resultados Experimentais

Desempenho em Simulação e Real

Taxa de Sucesso da Transferência (Handover Success Rate):
- Simulação: 93.0%
- Real (Carro físico): 87.0%
Segurança: A taxa de violação de segurança (colisão ou saída da pista) permaneceu abaixo de 3-5% em todos os cenários com o guia de segurança ativo.
Suavidade: O método apresentou um "jerk" (variação de aceleração) significativamente menor comparado a métodos de troca brusca (hard-switching) e muito melhor que a mistura de ações simples, que frequentemente falhava em cenários não convexos.

Comparação com Baselines

O Diffusion-SAFE superou métodos baseados em LSTM-GMM e Behavior Transformers (BET) na previsão de intenção humana e na geração de planos seguros.
Ablação:
- Sem o guia de segurança: A taxa de sucesso caiu para 84% (simulação), mostrando que o prior do modelo sozinho não cobre todos os cenários críticos.
- Sem difusão parcial (troca brusca): A segurança foi mantida, mas a suavidade degradou drasticamente (jerk 6.5x maior).
- Mistura simples de ações (SimpleBlend): Teve o pior desempenho de segurança, confirmando o problema da não convexidade.

5. Significado e Conclusão

O Diffusion-SAFE representa um avanço significativo na autonomia compartilhada ao resolver o conflito fundamental entre suavidade e segurança. Ao operar no espaço de planos através de modelos de difusão, o sistema consegue:

Manter a intenção do motorista sempre que possível.
Intervir de forma proativa e suave quando o risco é detectado.
Garantir matematicamente que a trajetória resultante permaneça em regiões seguras, evitando falhas catastróficas que ocorrem com a interpolação linear de comandos.

O trabalho demonstra que a difusão não é apenas uma ferramenta de geração, mas uma estrutura viável para controle em tempo real e transferência de autoridade em sistemas críticos de segurança, abrindo caminho para futuras aplicações em ambientes 3D e desconhecidos.