PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando encaixar uma chave na fechadura de uma porta antiga e enferrujada. Se você apenas olhar para a fechadura (visão) e tentar girar a chave, pode não sentir que ela está travada ou que precisa de um leve empurrão para o lado. Por outro lado, se você apenas sentir a resistência com a mão (força) sem olhar, pode quebrar a chave ou empurrar na direção errada.

O PhaForce é como um robô "superinteligente" que aprendeu a fazer exatamente o que um humano experiente faria: olhar para planejar o caminho, mas sentir com as mãos para fazer os ajustes finos em tempo real.

Aqui está a explicação simples de como isso funciona, usando analogias do dia a dia:

1. O Problema: O Robô "Lento" e o "Sentir" Rápido

Os robôs modernos são ótimos em tarefas visuais (como pegar uma maçã e colocar numa tigela). Eles usam câmeras e inteligência artificial para planejar movimentos. Mas, quando o robô precisa tocar em algo, empurrar uma gaveta ou encaixar um plugue, a visão não é suficiente.

O problema: A visão do robô é como um filme em câmera lenta. Ele planeja um bloco de movimentos de uma vez só. Mas o toque (força) acontece em milésimos de segundo. Se o plugue encostar na borda errada, o robô precisa corrigir na hora, antes que o bloco de movimento termine. Se ele esperar o próximo "plano", já é tarde demais e o plugue trava.

2. A Solução: O "PhaForce" (O Maestro e o Ajustador)

Os autores criaram um sistema com duas partes que trabalham juntas, como um maestro de orquestra e um músico solista:

A. O "Maestro" (Planejador Lento - Slow Planner)

O que faz: Ele olha para a câmera e planeja o movimento geral (ex: "ir até a gaveta e puxar").
A inovação: Ele não ignora o toque. Ele usa um "filtro inteligente" para saber quando ouvir o toque. Se o robô está no ar (sem tocar em nada), ele ignora o sensor de força (que pode estar com ruído). Se ele toca na gaveta, ele liga o sensor.
Analogia: É como um maestro que decide quando a seção de violinos (visão) deve tocar alto e quando os tambores (força) devem entrar para dar o ritmo.

B. O "Ajustador" (Corretor Rápido - Fast Corrector)

O que faz: Ele fica atento o tempo todo, a uma velocidade muito alta (como um reflexo humano).
A inovação: Ele sabe onde corrigir. Se o robô está tentando encaixar um plugue, ele sabe que precisa ajustar para cima/baixo e girar, mas não precisa puxar para trás.
Analogia: Imagine que você está dirigindo um carro em uma estrada de terra. O GPS (o Maestro) diz "vire à direita". Mas, se o carro começar a derrapar na areia, você (o Ajustador) faz micro-correções no volante instantaneamente para não sair da pista. O PhaForce faz isso: ele mantém o plano do GPS, mas corrige a derrapagem em tempo real.

3. O Segredo: O "Mapa de Fases" (Phase Schedule)

A grande sacada do papel é que o robô não trata todo o toque da mesma forma. Ele entende que a tarefa tem fases.

Fase 1 (Procurar): O plugue está perto do buraco. O robô precisa sentir se está deslizando para os lados (ajuste lateral).
Fase 2 (Encaixar): O plugue entrou. Agora ele precisa sentir se está travando e empurrar para frente (ajuste de profundidade).
Fase 3 (Recuperar): Se travou muito, o robô sabe que precisa recuar e tentar de novo.

O sistema usa um "oráculo" (o CAP) que prevê em qual fase o robô está e diz ao Ajustador: "Agora foque apenas em corrigir a rotação" ou "Agora foque em empurrar para frente". Isso evita que o robô faça correções erradas (como tentar girar quando deveria empurrar).

4. Os Resultados: Por que é incrível?

Os pesquisadores testaram isso em robôs reais fazendo coisas difíceis:

Encaixar plugues: O robô conseguiu encaixar plugues USB e carregadores com muito mais sucesso do que os métodos antigos. Ele não fica "preso" na borda do buraco.
Limpar uma mesa (Wiping): O robô limpou uma mesa com a pressão perfeita. Nem muito forte (que mancharia a mesa) nem muito fraco (que não limparia).
Adaptação: O teste mais legal foi quando eles mudaram a altura da mesa (algo que o robô nunca viu nos treinamentos). Os robôs antigos falharam completamente (empurraram a mesa com força demais ou não tocaram nela). O PhaForce, graças ao seu "Ajustador Rápido", sentiu a diferença e se adaptou na hora, conseguindo limpar a mesa mesmo na nova altura.

Resumo em uma frase

O PhaForce é um robô que tem a paciência de um planejador para traçar o caminho e a agilidade de um artesão para sentir e corrigir o toque milimetricamente, sabendo exatamente qual movimento fazer em cada momento da tarefa.

Isso permite que robôs façam tarefas delicadas e complexas do mundo real, como montar móveis ou consertar coisas, com uma segurança e precisão que antes só humanos tinham.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: PhaForce

1. Problema e Motivação

A manipulação rica em contato (ex: inserção de peças, limpeza, abertura de gavetas) exige não apenas a compreensão semântica baseada em visão, mas também reações em malha fechada a transientes de força/torque (F/T).

Desafio 1 (Mismatch de Escala Temporal): Políticas visuomotoras generativas (baseadas em difusão) geralmente operam em baixa frequência devido à latência de inferência e ao uso de "chunks" de ação. Isso impede o uso eficaz de sinais de força de alta frequência para correções rápidas de curto prazo (ex: micro-impactos, stick-slip).
Desafio 2 (Ausência de Agendamento Explícito): Métodos existentes que incorporam força frequentemente a injetam de forma contínua e indiscriminada. Eles carecem de um mecanismo para agendar explicitamente quando, quanto e onde (em qual subespaço de correção) aplicar a força. Sem isso, correções de alta taxa podem ocorrer em subespaços irrelevantes, degradando o alinhamento ou causando travamentos (jamming).

2. Metodologia: PhaForce

O PhaForce é uma política visuomotoras "slow-fast" (lento-rápido) agendada por fases, que coordena o planejamento de nível de chunk (lento) com correção residual em malha fechada (rápida) através de um agendador de contato/fase unificado.

A arquitetura consiste em três componentes principais:

A. Preditor de Fase Consciente de Contato (CAP - Contact-Aware Phase Predictor)

Função: Estima a probabilidade de contato contínua ( $p_c$ ) e uma distribuição de crença de fase suave ( $p_t$ ) sobre as fases da tarefa (ex: aproximação, busca, inserção, recuperação).
Inovação: Diferente de detectores binários, o CAP prevê o contato futuro (anticipatório) e a fase atual, servindo como um sinal semântico explícito para agendar o uso da força.
Treinamento: Supervisionado por rótulos futuros gerados automaticamente a partir de sinais de força e pose, sem anotação manual.

B. Planejador Lento (Slow Diffusion Planner)

Função: Gera chunks de ação nominal em baixa frequência (ex: 6 Hz).
Fusão Dual-Gated: Funde visão e força usando atenção cruzada.
- Gate de Contato ( $p_c$ ): Controla a força de injeção global, suprimindo sinais de força ruidosos quando não há contato.
- Gate de Fase ( $p_t$ ): Modula quais cabeças da atenção são enfatizadas dependendo da fase atual.
Injeção Residual Ortogonal (ORI): Em vez de sobrescrever os recursos visuais com a informação de força, o método injeta a força como um resíduo ortogonal ao token visual. Isso preserva a semântica dominante da visão (evitando drift semântico) enquanto condiciona a ação à força.

C. Corretor Rápido (Fast Residual Corrector)

Função: Opera em alta frequência (ex: 24 Hz) dentro de cada chunk para micro-ajustes.
Roteamento de Subespaços Corretivos: Utiliza a crença de fase ( $p_t$ $p_{t}$ ) para ativar suavemente subespaços específicos de correção.
- Exemplo: Na fase de "busca" para inserção, ativa correções em $x, y, yaw$ ; na fase de "inserção", ativa compliance em $z$ .
Supervisão Física: O alvo de treinamento não é uma pose fixa, mas um "resíduo físico" derivado de sinais de força (ex: aliviar atrito tangencial ou manter uma força normal desejada), permitindo adaptação a geometrias não vistas.

3. Contribuições Principais

Arquitetura Unificada: Propõe o PhaForce, unindo planejamento generativo consciente de força com correção residual em taxa de controle, coordenados por um agendamento explícito.
Sinal de Agendamento Explícito: Introduz um mecanismo (probabilidade de contato + crença de fase) que decide dinamicamente quando e onde usar a força, superando a fusão cega de modalidades.
Mecanismos de Fusão e Correção: Desenvolve a injeção residual ortogonal (para preservar visão) e o roteamento de subespaços baseado em fase (para correções interpretáveis).
Validação Robusta: Demonstra superioridade em tarefas reais complexas, tanto em cenários de distribuição (ID) quanto fora de distribuição (OOD) com deslocamentos geométricos.

4. Resultados Experimentais

Os testes foram realizados em um braço robótico Flexiv Rizon 4s com cinco tarefas ricas em contato: Inserção de Carregador, Inserção USB, Abertura de Gaveta e Limpeza (Wiping) em cenários ID e OOD.

Taxa de Sucesso (SR): O PhaForce alcançou uma taxa de sucesso média de 86%, uma melhoria de +40 pontos percentuais em relação às melhores baselines (como RDP e Diffusion Policy).
Desempenho em OOD: Em tarefas de limpeza com mudança de altura (OOD), políticas sem correção rápida falharam completamente (0% de sucesso), enquanto o PhaForce manteve 85% de sucesso, demonstrando capacidade de compensar erros geométricos via feedback de força.
Qualidade de Contato: Na tarefa de limpeza, o PhaForce reduziu significativamente o tempo de sobre-pressão e sub-pressão, mantendo uma força normal estável e eficaz, ao contrário de políticas puramente visuais que oscilavam.
Análise de Falhas: O método mitigou falhas comuns como "estagnação" (travar na entrada do buraco) e "inserção parcial", graças à capacidade de detectar fases de recuperação e realizar search (busca) ativa.

5. Significado e Impacto

O PhaForce representa um avanço significativo na robótica de manipulação ao resolver o conflito fundamental entre a latência de modelos generativos de alto nível e a necessidade de reatividade de alta frequência em contatos físicos.

Interpretabilidade: Ao agendar explicitamente as fases e subespaços de correção, o sistema torna o comportamento do robô mais previsível e seguro.
Generalização: A capacidade de usar a força para compensar erros geométricos não vistos (OOD) sugere um caminho viável para robôs operarem em ambientes não estruturados e variáveis.
Eficiência de Dados: A abordagem permite aprender políticas robustas com menos demonstrações, pois a correção em tempo real compensa imperfeições no planejamento de longo prazo.

Em resumo, o PhaForce estabelece um novo paradigma para políticas visuomotoras, onde a força não é apenas um sensor passivo, mas um sinal ativo e agendado que guia tanto o planejamento estratégico quanto a execução tática.