See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um fotógrafo profissional extremamente talentoso, que tirou milhões de fotos em estúdios perfeitos e sabe reconhecer qualquer coisa no mundo (um cachorro, um carro, um sofá). Esse fotógrafo é o "modelo de percepção" que já existe e que a gente usa hoje.

O problema é: quando você leva esse fotógrafo para uma casa nova, bagunçada e com móveis estranhos (o "novo ambiente"), ele se perde. Ele não sabe onde olhar, fica confuso com a iluminação e começa a errar feio.

A solução tradicional seria: "Vamos ensinar o fotógrafo de novo, mostrar milhares de fotos dessa casa nova e pedir para ele memorizar". Mas isso é caro, demorado e faz ele esquecer tudo o que já sabia sobre o mundo.

A Solução: O "Sea2" (Veja, Aja, Adapta)

Os autores deste paper propuseram uma ideia genial: em vez de mudar o fotógrafo, vamos mudar o ajudante que segura a câmera para ele.

Eles criaram um sistema chamado Sea2 (Veja, Aja, Adapta). Pense nele como um robô guia que segura a câmera do fotógrafo.

Como funciona a mágica?

O Fotógrafo Fica Parado (Congelado): O fotógrafo (o modelo de IA) não é tocado. Ele continua sendo o mesmo de antes. Isso significa que ele não esquece nada do que aprendeu.
O Guia Inteligente (O Agente VLM): Eles usam um "cérebro" super inteligente (uma Visão-Linguagem, ou VLM) que age como o guia. Esse guia recebe uma ordem em linguagem natural, tipo: "Encontre o sofá perto da mesa de jantar".
O Processo de "Veja, Aja, Adapta":
- Veja: O guia olha a primeira foto. Se o sofá estiver escondido atrás de uma cadeira ou muito longe, a foto fica ruim.
- Aja: O guia pensa: "Eita, a foto está ruim. O sofá está meio escondido. Vou andar um pouquinho para a frente e virar a cabeça para a esquerda". Ele move a câmera.
- Adapta: Ele tira outra foto. Se a nova foto for melhor, ele continua assim. Se for pior, ele tenta outra coisa.

O Segredo: Sem Professor, Apenas Feedback

O que torna isso revolucionário é que ninguém ensina o guia onde o sofá está. Não há um professor dizendo "está aqui, está ali".

O guia aprende sozinho usando um sistema de feedback simples, como um jogo de "quente ou frio":

O fotógrafo diz: "Nossa, nessa foto eu tenho 80% de certeza que é um sofá!" -> O guia recebe um ponto positivo (recompensa).
O fotógrafo diz: "Essa foto está muito escura, só tenho 10% de certeza" -> O guia recebe um ponto negativo.

Com o tempo, o guia aprende a se mover de forma inteligente para tirar as fotos onde o fotógrafo tem mais certeza, mesmo que ele nunca tenha visto aquela casa antes.

Analogias do Dia a Dia

O Detetive Cego: Imagine um detetive que tem óculos de visão noturna (o fotógrafo), mas ele está vendado. O guia é a pessoa que segura a mão dele. O guia não sabe onde está o suspeito, mas ele sente quando os óculos do detetive "acendem" (ficam mais claros). Então, o guia anda devagar, sentindo quando a visão melhora, até encontrar o suspeito.
O Chef e o Garçom: O Chef (o modelo de IA) é um mestre em cozinhar pratos complexos, mas ele só sabe cozinhar se os ingredientes estiverem na bancada certa. O Garçom (o agente Sea2) é quem pega os ingredientes e os coloca na posição perfeita para o Chef trabalhar. O Chef não precisa aprender a pegar os ingredientes; o Garçom é quem aprende a se mover pela cozinha para facilitar o trabalho do Chef.

Por que isso é incrível?

Economia: Não precisa gastar milhões anotando fotos de cada casa nova.
Versatilidade: O mesmo guia serve para encontrar objetos, cortar imagens (segmentação) ou medir o tamanho de móveis em 3D.
Segurança: Como o "cérebro" do fotógrafo não é alterado, ele não esquece o que já sabe (um problema chamado "esquecimento catastrófico").

O Resultado

Nos testes, esse sistema conseguiu melhorar a precisão em até 27% apenas mudando o ângulo da câmera, sem precisar reensinar o modelo principal. É como se você tivesse um fotógrafo que, com a ajuda de um guia esperto, conseguisse tirar fotos perfeitas em qualquer lugar do mundo, sem nunca ter estado lá antes.

Em resumo: Não mude o especialista; mude a forma como ele olha para o mundo.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os modelos de percepção visual pré-treinados em grandes conjuntos de dados da internet (como COCO ou imagens da web) demonstram excelente generalização em tarefas genéricas. No entanto, quando implantados em ambientes corporificados (embodied) novos, como cenas internas (indoor), seu desempenho degrada-se drasticamente devido a:

Diferenças na distribuição de pontos de vista (viewpoint distribution).
Padrões de oclusão distintos.
Semântica espacial diferente.

A solução convencional é o fine-tuning (ajuste fino) dos modelos de percepção nos dados do domínio alvo. Contudo, essa abordagem apresenta duas limitações críticas:

Esquecimento Catastrófico: O modelo perde o conhecimento prévio adquirido durante o pré-treinamento.
Custo de Anotação: Requer anotações específicas da cena (máscaras de pixels, caixas delimitadoras 3D, expressões de referência), que são caras e difíceis de obter em ambientes não supervisionados.

A pergunta central do trabalho é: É possível adaptar a percepção a novos domínios sem tocar nos próprios modelos de percepção?

2. Metodologia: Sea2 (See, Act, Adapt)

O artigo propõe uma mudança de paradigma: em vez de adaptar os módulos de percepção, adapta-se como eles são implantados. A solução, chamada Sea2, utiliza um agente inteligente controlado por um Modelo de Linguagem e Visão (VLM) para navegar e ajustar sua pose (câmera) a fim de capturar observações ricas em informação, maximizando a qualidade da percepção sem re-treinar os modelos de visão.

Arquitetura e Fluxo de Trabalho

O sistema mantém todos os módulos de percepção congelados (frozen). O agente recebe uma instrução em linguagem natural e deve decidir como se mover para melhorar a detecção/segmentação.

Pipeline de Treinamento em Duas Etapas:
O VLM é transformado de um modelo de raciocínio passivo em um controlador de pose de baixo nível através de:

Ajuste Fino Supervisionado (SFT):
- O VLM é alinhado com o raciocínio espacial usando trajetórias de exploração baseadas em regras heurísticas.
- A lógica heurística segue três fases: Busca do Objeto (rotacionar até detectar), Centralização (alinhar o objeto ao centro da imagem) e Ajuste de Proximidade (mover para frente até ocupar área suficiente).
- Isso cria um conjunto de dados supervisionado para ensinar o formato de saída e o raciocínio básico.
Aprendizado por Reforço Não Supervisionado (RL):
- O VLM é refinado usando o algoritmo GRPO (Group Relative Policy Optimization).
- Recompensa: O agente não usa rótulos de verdade (ground-truth). A recompensa é derivada puramente dos outputs dos módulos de percepção congelados:
  - Recompensa de Formato: Garante que a estrutura de saída (pensamento, tipo de tarefa, ação) esteja correta.
  - Recompensa de Confiança: Mede a variação da pontuação de confiança do módulo de percepção entre passos consecutivos ( $c_t - c_{t-1}$ ).
  - Recompensa Geométrica: Avalia a consistência espacial (área do objeto na imagem e alinhamento com o centro).
- O objetivo é maximizar a qualidade cumulativa da percepção sem atualizar os parâmetros dos módulos de visão.

3. Principais Contribuições

Primeiro Framework de Percepção Ativa Baseado em VLM Plug-and-Play: O Sea2 é compatível com diversos modelos de percepção "off-the-shelf" (prontos para uso). Ele usa apenas saídas escalares (confiança) como recompensa, permitindo integração sem re-treinamento dos modelos de visão ou necessidade de rótulos downstream.
Pipeline de Treinamento RL Não Supervisionado: Introduz um método que elimina a necessidade de anotações perceptivas densas (máscaras de pixels ou caixas 3D), utilizando apenas objetivos de nível de tarefa e feedback escalar de modelos congelados.
Desacoplamento entre Percepção e Controle: Cria um framework modular onde a política de controle aprende a navegar para pontos de vista informativos, recuperando a degradação causada pela diferença de domínio sem alterar o modelo de percepção subjacente.

4. Resultados Experimentais

Os experimentos foram conduzidos em ambientes realistas do Habitat, utilizando os conjuntos de dados ReplicaCAD e HM3D. Foram avaliadas três tarefas de visão: Visual Grounding (localização), Segmentação e Estimação de Caixas 3D.

Desempenho no Dataset ReplicaCAD:
O Sea2 superou significativamente as linhas de base (incluindo modelos pré-treinados estáticos, políticas aleatórias e heurísticas simples):

Visual Grounding: Melhoria de 13,54% no mAP médio.
Segmentação: Melhoria de 15,92% no IoU (e 13,59% no Dice).
Estimação de Caixa 3D: Melhoria de 27,68% no IoU e 25,35% na pontuação de centro.

Desempenho no Dataset HM3D:
Os ganhos foram consistentes em ambientes mais complexos e de alta fidelidade, com melhorias de até 22,16% no mAP de grounding e 9,31% no IoU de caixas 3D.

Análise de Ablação:

O treinamento apenas com RL (sem SFT) foi instável e performou pior que o valor inicial.
O SFT sozinho trouxe melhorias consistentes, mas a combinação SFT + RL foi superior, demonstrando que o SFT fornece um "início frio" estável e o RL refina a seleção de vistas além do comportamento heurístico.
A combinação de recompensas de confiança e geometria foi crucial para a estabilidade e desempenho final.

5. Significado e Conclusão

O trabalho Sea2 estabelece uma nova direção para a adaptação de domínio em IA corporificada. Ele demonstra que a seleção estratégica de pontos de vista (active perception) pode ser tão eficaz quanto o ajuste fino de modelos para superar lacunas de domínio.

A principal inovação é a capacidade de operar em cenários do mundo real onde anotações são inexistentes ou proibitivas. Ao congelar os modelos de percepção e aprender apenas uma política de controle baseada em feedback escalar, o método evita o esquecimento catastrófico e oferece uma solução escalável e eficiente para a adaptação de sistemas de visão em novos ambientes.

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

A Solução: O "Sea2" (Veja, Aja, Adapta)

Como funciona a mágica?

O Segredo: Sem Professor, Apenas Feedback

Analogias do Dia a Dia

Por que isso é incrível?

O Resultado

1. O Problema

2. Metodologia: Sea2 (See, Act, Adapt)

Arquitetura e Fluxo de Trabalho

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction