Bi-AQUA: Bilateral Control-Based Imitation Learning for Underwater Robot Arms via Lighting-Aware Action Chunking with Transformers

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a fazer tarefas delicadas debaixo d'água, como pegar um objeto, fechar uma gaveta ou tirar um pino de um buraco. O problema é que o mundo subaquático é um pesadelo para a visão: a luz muda de cor (fica azulada ou esverdeada), a água turva tudo, e às vezes a luz pisca ou muda de cor rapidamente.

Para um robô comum, isso é como tentar dirigir um carro com os olhos vendados ou com óculos escuros que mudam de cor a cada segundo. O robô perde a noção de onde está e o que está fazendo.

Os autores deste artigo criaram uma solução chamada Bi-AQUA. Vamos explicar como funciona usando analogias simples:

1. O Problema: "O Robô Cego e o Mestre Telepático"

Normalmente, os robôs são ensinados por um humano que segura um controle (o "mestre") e o robô (o "escravo") copia os movimentos.

O jeito antigo (Unilateral): O robô só olha para a câmera e tenta copiar. Se a água ficar turva ou a luz mudar, o robô fica confuso e erra. É como tentar montar um quebra-cabeça no escuro.
O jeito novo (Bilateral): O robô não apenas olha, mas também sente. Assim como você sente a pressão da mão ao apertar a de alguém, o robô sente a força que está fazendo. Isso ajuda muito em tarefas delicadas, como pegar um ovo sem quebrá-lo.

2. A Solução: O "Óculos Mágico" e o "Tradutor de Luz"

O Bi-AQUA é a primeira vez que alguém combinou esse "sentir a força" com uma inteligência artificial que entende especificamente como a luz funciona debaixo d'água. Eles usaram três truques inteligentes:

O "Tradutor de Luz" (Lighting Encoder):
Imagine que o robô tem um tradutor que olha para a água e diz: "Ah, hoje a água está muito azulada" ou "Olha, a luz está piscando rápido". Em vez de tentar limpar a imagem (o que é difícil), o robô aprende a entender que a cor mudou e ajusta sua estratégia mentalmente. Ele não precisa de um professor dizendo "está azul"; ele aprende sozinho observando a imagem.
Os "Óculos de Ajuste" (FiLM Modulation):
Pense que o cérebro do robô tem óculos que mudam de lentes automaticamente. Se a luz está vermelha, ele coloca uma lente que compensa o vermelho. Se está azul, muda para azul. Isso ajuda o robô a ver os objetos com clareza, independentemente da cor da água.
O "Bilhete de Instrução" (Lighting Token):
Além de ajustar os óculos, o robô recebe um "bilhete" (um dado extra) que diz exatamente como a luz está naquele momento. Ele usa essa informação para decidir qual movimento fazer a seguir. É como se o robô recebesse uma dica: "Ei, a luz está mudando, então segure mais firme!".

3. A Magia: "Aprender a Nadar em Qualquer Tempo"

Os pesquisadores testaram esse robô em três desafios reais:

Pegar e levar um objeto: Atravessar o tanque com um bloco.
Fechar uma gaveta: Uma tarefa longa que exige empurrar e sentir a resistência.
Tirar um pino de um buraco: A tarefa mais difícil, onde o pino está muito apertado e exige força precisa.

O resultado foi impressionante:

O robô comum (sem o "tradutor de luz") falhava miseravelmente assim que a cor da luz mudava ou quando apareciam bolhas na água.
O Bi-AQUA, mesmo nunca tendo visto aquela cor de luz específica antes, conseguiu realizar as tarefas com sucesso. Ele se adaptou instantaneamente.
Além disso, ele foi tão rápido e eficiente quanto um humano operando o robô remotamente.

Resumo em uma frase

O Bi-AQUA é como dar a um robô subaquático óculos inteligentes que se ajustam sozinhos à cor da água e mãos que sentem a força, permitindo que ele faça tarefas complexas mesmo quando a luz está bagunçada, turva ou mudando de cor.

É um grande passo para que robôs possam trabalhar sozinhos no fundo do mar, limpando oceanos ou consertando equipamentos, sem precisar de um humano segurando a mão o tempo todo.

Each language version is independently generated for its own context, not a direct translation.

Título: Bi-AQUA: Aprendizado por Imitação Baseado em Controle Bilateral para Braços Robóticos Subaquáticos via Chunking de Ação Consciente de Iluminação com Transformers

1. Problema e Motivação

A manipulação robótica subaquática enfrenta desafios significativos devido à degradação severa da qualidade visual. Fatores como atenuação dependente do comprimento de onda, dispersão (scattering), turbidez e variações rápidas na iluminação (espectro, intensidade e direção) causam inconsistências visuais drásticas.

Limitações Atuais: Métodos existentes de aprendizado por imitação (IL) para robótica subaquática geralmente dependem apenas de controle unilateral (sem feedback de força) ou tratam a iluminação apenas como um problema de pré-processamento de imagem (melhoria de imagem), sem modelar a luz explicitamente dentro da política de controle.
O Gap: Não existia até então um framework de aprendizado por imitação que combinasse controle bilateral (que troca posição e força) com modelagem explícita de iluminação para lidar com ambientes subaquáticos dinâmicos.

2. Metodologia: Bi-AQUA

O Bi-AQUA é o primeiro framework de aprendizado por imitação baseado em controle bilateral projetado especificamente para braços robóticos subaquáticos. Ele integra o mecanismo de Action Chunking com Transformers (inspirado no Bi-ACT) com uma arquitetura hierárquica consciente da iluminação.

Arquitetura Principal

O sistema opera em um loop de controle bilateral entre um operador humano (robô líder no ar) e um robô seguidor subaquático. A política de aprendizado por imitação possui três componentes inovadores para lidar com a luz:

Lighting Encoder (Codificador de Iluminação) sem Rótulos:
- Um módulo que extrai representações compactas de iluminação ( $v_L$ ) diretamente das imagens RGB, sem necessidade de anotações manuais de cor ou luz.
- Utiliza uma arquitetura de duplo caminho: um caminho convolucional para capturar pistas espaciais e um caminho baseado em histograma (saturação e valor) para capturar estatísticas de cor.
- As saídas são fundidas para criar um embedding latente da iluminação.
Modulação Visual FiLM (Feature-wise Linear Modulation):
- O embedding de iluminação ( $v_L$ ) é usado para condicionar a rede neural visual (backbone) através de camadas FiLM.
- Isso permite que os recursos visuais sejam ajustados dinamicamente (escala e deslocamento) com base nas condições de iluminação atuais, adaptando a percepção antes da geração de ação.
Token de Iluminação no Transformer:
- Um token específico de iluminação é injetado na entrada do codificador do Transformer, juntamente com os tokens de estado proprioceptivo e latente.
- Isso permite que o modelo aprenda a gerar ações condicionadas não apenas ao estado do robô, mas também ao contexto de iluminação atual, facilitando a adaptação a mudanças dinâmicas.

Fluxo de Dados

Coleta de Dados: Um operador controla um robô líder no ar, enquanto um robô seguidor executa movimentos espelhados subaquático. O sistema registra imagens multiview e estados de junta (posição, velocidade, torque) sem sensores de força dedicados (usando observadores de perturbação).
Treinamento: Utiliza um Conditional Variational Autoencoder (CVAE) com backbone Transformer. O objetivo é minimizar o erro de ação (imitação) e a divergência KL, aprendendo a mapear observações visuais e de iluminação para blocos de ações (chunks) do robô líder.

3. Contribuições Principais

Primeiro Framework Bi-IL Subaquático: Introdução do primeiro sistema de aprendizado por imitação baseado em controle bilateral para manipulação subaquática.
Política Consciente de Iluminação: Proposta de uma arquitetura que integra explicitamente a iluminação como um fator latente através de um Lighting Encoder sem rótulos, modulação FiLM e tokens de iluminação, permitindo adaptação a luz estática e dinâmica.
Validação em Cenários Reais: Demonstração de ganhos robustos em tarefas de manipulação subaquática real, superando baselines que não modelam a luz e generalizando para condições de iluminação não vistas e objetos novos.

4. Resultados Experimentais

Os experimentos foram realizados em um tanque de água com um braço robótico de 3 graus de liberdade, sob 8 modos de iluminação (incluindo cores não vistas durante o treinamento e um modo dinâmico que muda a cada 2 segundos).

Tarefas Avaliadas:

Pegar e Colocar (Pick-and-Place): Robustez básica.
Fechamento de Gaveta: Tarefa de longo horizonte com contato.
Extração de Pino (Peg Extraction): Tarefa de precisão com contato rico e tolerância geométrica apertada (1,5 mm).

Desempenho Chave:

Robustez à Iluminação: O Bi-AQUA alcançou taxas de sucesso de 100% em 7 dos 8 modos de iluminação (incluindo ciano e roxo não vistos) e 80% no modo azul (difícil devido à atenuação).
Comparação com Baseline: O baseline Bi-ACT (sem modelagem de luz) falhou quase completamente em todas as condições exceto luz branca (100% sucesso) e vermelha (20%), demonstrando que a modelagem explícita de luz é crítica.
Ablação: A remoção de qualquer componente (Encoder, FiLM ou Token) resultou em queda drástica de desempenho, especialmente no modo de iluminação dinâmica, provando que a adaptação hierárquica é necessária.
Generalização: O modelo manteve alto desempenho com objetos não vistos (bloco de borracha preta, esponja azul) e distúrbios visuais (bolhas), sem re-treinamento.
Importância do Controle Bilateral: Em tarefas de contato rico (extração de pino), a versão sem feedback de força (apenas visão) falhou em 0% a 40% das vezes, enquanto o Bi-AQUA completo manteve 80-100% de sucesso, destacando a necessidade de feedback de força em ambientes subaquáticos com percepção degradada.

5. Significado e Conclusão

O Bi-AQUA representa um avanço significativo na robótica subaquática autônoma. Ao combinar o controle bilateral (que fornece feedback tátil essencial quando a visão falha) com uma modelagem explícita de iluminação (que adapta a percepção às condições ambientais), o sistema supera as limitações das abordagens puramente visuais ou de controle unilateral.

Os resultados indicam que a adaptação consciente da iluminação não é apenas um pré-processamento, mas uma parte integral da política de controle. Isso abre caminho para operações subaquáticas mais confiáveis em cenários do mundo real, onde a iluminação é imprevisível e a visibilidade é frequentemente comprometida, permitindo tarefas complexas de manipulação que antes dependiam exclusivamente de teleoperação humana.