WildOS: Open-Vocabulary Object Search in the Wild

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está soltando um cachorro inteligente em uma floresta enorme e desconhecida, e você diz a ele: "Encontre a casinha vermelha". O problema é que o cachorro só consegue ver com clareza os primeiros 10 metros à sua frente. Além disso, ele não tem um mapa, e a floresta é cheia de arbustos, cercas e caminhos que podem ser armadilhas.

O WildOS é o "cérebro" de um robô (neste caso, um robô quadrúpede parecido com o Spot da Boston Dynamics) projetado para resolver exatamente esse problema. Ele permite que o robô navegue por longas distâncias em ambientes selvagens e desestruturados para encontrar objetos descritos em linguagem natural (como "encontre o tanque de água" ou "vá até o carro de golfe").

Aqui está como o WildOS funciona, usando analogias simples:

1. O Dilema: "O que vejo agora" vs. "O que sei que existe"

A maioria dos robôs hoje funciona como alguém com uma lanterna fraca em uma sala escura. Eles só sabem onde andar com segurança se a luz da lanterna (o sensor de distância/LiDAR) iluminar o chão. Se há uma cerca a 20 metros de distância, o robô só percebe quando bate nela. Isso faz com que ele ande de forma "miopia", indo direto para o obstáculo e depois dando a volta, o que é lento e ineficiente.

Outros robôs tentam usar apenas a "visão" (câmeras), como se olhassem para o horizonte. Eles conseguem ver a cerca de longe, mas muitas vezes esquecem onde já foram, voltando a andar em círculos ou caindo em becos sem saída porque não têm memória do que já exploraram.

2. A Solução: O "Cérebro" Híbrido do WildOS

O WildOS combina o melhor dos dois mundos: a memória de longo prazo e a intuição visual. Ele é dividido em três partes principais:

A. O Mapa Mental (O Gráfico de Navegação)

Em vez de tentar desenhar cada pedra e folha do chão (o que ocuparia muita memória), o WildOS cria um mapa mental simplificado, como um diagrama de conexões de metrô.

Como funciona: Ele guarda apenas os "nós" (lugares onde o robô já esteve) e as "linhas" (caminhos seguros entre eles).
A analogia: Imagine que você está explorando uma cidade nova. Você não desenha cada tijolo da calçada. Você apenas anota: "Estou na praça", "Há uma rua à esquerda que leva ao parque" e "A rua da direita está bloqueada". Isso é leve, rápido e permite que o robô lembre de onde já foi para não voltar a entrar em becos sem saída.

B. O "Olho Mágico" (ExploRFM)

Aqui entra a parte mais inovadora. O robô usa uma Inteligência Artificial baseada em modelos fundamentais (uma IA treinada em milhões de imagens da internet) chamada ExploRFM.

O que ele faz: Enquanto o sensor de distância vê apenas o que está perto, a IA olha para a câmera e "adivinha" o que está longe. Ela responde a três perguntas em tempo real:
1. É seguro andar por ali? (Ex: "Aquilo parece grama, é seguro. Aquilo parece água ou arbusto denso, é perigoso").
2. Onde está o caminho? (Ex: "Vejo uma abertura entre duas árvores que parece um caminho").
3. Onde está o objetivo? (Ex: "Aquela forma lá no horizonte parece um carro de golfe").
A analogia: É como se o robô tivesse um "olho de águia" que consegue ver o que está além da neblina, identificando não apenas obstáculos, mas também caminhos promissores e objetos de interesse muito antes de chegar perto deles.

C. O Triângulo da Localização (Triangulação)

Como o robô vê o objeto de longe, mas não consegue medir a distância exata com o sensor, ele usa um truque matemático.

Como funciona: O robô anda um pouco, olha para o objeto de um ângulo, depois anda mais e olha de outro ângulo. Ele usa essas diferentes visões para "triangular" onde o objeto provavelmente está, como um caçador que estima a distância de uma presa observando-a de dois pontos diferentes.
O resultado: Mesmo que o objeto esteja a 100 metros de distância (fora do alcance do sensor), o robô cria uma "bola de energia" no mapa mental indicando: "O alvo deve estar aqui".

3. A Dança da Decisão: Juntando Tudo

Agora, o robô precisa decidir para onde ir. Ele faz uma "fusão" de informações:

Ele olha para seu Mapa Mental para ver quais caminhos já conhece e quais são seguros perto dele.
Ele olha para o Olho Mágico para ver quais caminhos longe parecem interessantes e seguros.
Ele projeta os caminhos do mapa mental na imagem da câmera e dá uma "nota" para cada um.
- Exemplo: "O caminho da esquerda leva direto para o objetivo, mas a IA diz que tem um muro invisível lá. Nota: Baixa."
- Exemplo: "O caminho da direita vai um pouco para trás, mas a IA vê uma abertura entre árvores que leva ao objetivo. Nota: Alta."

O robô escolhe o caminho com a melhor nota, garantindo que ele não bata em obstáculos invisíveis e não ande em círculos.

Por que isso é importante?

Antes do WildOS, os robôs de busca e resgate ou inspeção ambiental precisavam de mapas pré-existentes ou de humanos guiando-os. Com o WildOS, o robô pode ser solto em uma floresta, receber uma ordem como "Encontre o abrigo de emergência" e:

Entender o idioma: Sabe o que é um "abrigo".
Ver longe: Identifica o abrigo a centenas de metros de distância.
Planejar com inteligência: Escolhe o caminho que contorna obstáculos longínquos, em vez de ir direto para eles.
Lembrar: Se entrar em um beco sem saída, ele sabe voltar e tentar outro caminho, sem precisar que um humano diga "vire para trás".

Em resumo, o WildOS transforma um robô que apenas "sente o chão" em um explorador que vê, entende e planeja como um humano faria, usando a combinação de memória espacial e inteligência visual avançada.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contexto

O artigo aborda o desafio da navegação autônoma de longo alcance e busca de objetos com vocabulário aberto em ambientes externos não estruturados (como terrenos off-road e urbanos).

Desafios Principais:
- Limitação de Sensoriamento: Robôs dependem de sensores de profundidade (LiDAR/estéreo) com alcance limitado (geralmente ~10-15m para mapas confiáveis). Além desse horizonte, o ambiente é desconhecido e a informação de profundidade é esparsa ou inexistente.
- Exploração Miópica: Sistemas baseados puramente em geometria tendem a seguir fronteiras geométricas imediatas, ignorando pistas semânticas visuais (como um caminho visível além de uma cerca) que poderiam levar a objetivos mais eficientes.
- Falta de Memória Espacial: Métodos baseados puramente em visão (sem memória de longo prazo) frequentemente falham em ambientes complexos, oscilando entre áreas ou repetindo explorações em becos sem saída.
- Localização de Alvos Distantes: Localizar um objeto descrito por texto (ex: "encontre a casa") quando ele está muito além do alcance do sensor de profundidade é difícil para métodos de mapeamento tradicionais.

2. Metodologia: O Sistema WildOS

O WildOS é um sistema unificado em tempo real que combina a segurança geométrica de um grafo de navegação com o raciocínio semântico de longo alcance de um modelo de visão fundamental. A arquitetura consiste em cinco componentes principais:

A. Construção do Grafo de Navegação (Memória Geométrica)

O sistema mantém um grafo de navegação esparso ( $G_{nav}$ ) que representa o espaço explorado.
Os nós do grafo representam locais navegáveis e as arestas codificam custos de travessia.
O grafo identifica nós de fronteira (frontier nodes) na fronteira entre o espaço conhecido e o desconhecido.
Diferente de mapas densos (voxels), esta estrutura é eficiente em memória e escalável para grandes áreas.

B. Módulo de Visão Aprendido: ExploRFM

Utiliza um Modelo de Visão Fundamental (VFM) baseado na arquitetura RADIO (que combina DINO, CLIP e SAM).
Recebe a imagem RGB atual e uma consulta de texto (ex: "tanque de água").
Gera três mapas densos de previsão em tempo real:
1. Mapa de Travessibilidade Visual ( $T^{vis}$ ): Classifica pixels como seguros ou perigosos (ex: grama vs. água) além do alcance do LiDAR.
2. Mapa de Pontuação de Fronteira Visual ( $F^{vis}$ ): Identifica regiões na imagem que parecem ser caminhos promissores para exploração (ex: aberturas entre árvores, fim de trilhas).
3. Máscara de Similaridade de Objeto ( $S^{vis}$ ): Localiza visualmente a região da imagem que corresponde ao objeto buscado.

C. Triangulação de Alvo (Localização Coarse)

Para localizar objetos além do alcance do sensor de profundidade, o sistema utiliza um filtro de partículas baseado em triangulação.
Ao detectar o objeto em múltiplas visões (câmeras), o sistema gera hipóteses 3D probabilísticas e pondera-as com base no alinhamento dos raios de visão.
Isso fornece uma estimativa grosseira da posição do alvo ( $\hat{p}_{goal}$ ) para planejamento, mesmo sem medição de profundidade direta.

D. Fusão e Pontuação do Grafo (Cross-Modal Scoring)

Os nós de fronteira geométrica são projetados no espaço da imagem.
Uma função de pontuação combina:
- A confiança de travessibilidade visual.
- A similaridade com o objetivo (se visível).
- A direção do objetivo (alinhamento do vetor de fronteira com o alvo estimado).
Isso cria um Grafo de Navegação Pontuado ( $G^{score}$ ), onde as fronteiras são priorizadas não apenas pela proximidade, mas pelo potencial semântico e de travessibilidade.

E. Planejamento Hierárquico

Um planejador de alto nível busca um caminho no grafo pontuado até a estimativa do alvo.
Um planejador local (Nav2) executa movimentos seguros e dinamicamente viáveis para atingir sub-objetivos intermediários.

3. Principais Contribuições

WildOS: Um sistema unificado para busca de objetos de vocabulário aberto que integra raciocínio visual e geométrico através de um grafo de navegação pontuado.
Módulo ExploRFM: Uma rede baseada em modelo fundamental que prevê simultaneamente travessibilidade, fronteiras visuais e similaridade de objetos em espaço de imagem para tomada de decisão a bordo.
Grafo Pontuado por Visão: Uma abordagem topológica inovadora que pontua fronteiras geométricas com dicas semânticas, priorizando a exploração em direção a regiões visualmente promissoras.
Localização de Objetos Além do Horizonte: Um estimador baseado em filtro de partículas que localiza alvos fora do alcance do sensor de profundidade, permitindo planejamento direcionado a longas distâncias.
Validação de Campo e Dataset: Experimentos extensivos em terrenos off-road e urbanos, demonstrando superioridade sobre baselines, além de um novo dataset anotado para fronteiras visuais.

4. Resultados e Experimentos

Os experimentos foram realizados em um robô quadrúpede Boston Dynamics Spot em diversos terrenos (off-road, urbano, industrial).

Busca de Objetos (Zero-Shot): O sistema navegou com sucesso para objetos descritos por texto (ex: "logo da NASA", "bandeira laranja", "carrinho de golfe") sem mapeamento prévio, utilizando apenas a consulta de linguagem e sensores a bordo.
Eficiência de Navegação (Comparação com Baselines):
- WildOS vs. Navegação Pura Geométrica (Vanilla GraphNav): O WildOS foi significativamente mais eficiente, evitando caminhos bloqueados ao detectar aberturas visuais antes de chegar a elas, enquanto o método geométrico seguia em linha reta até encontrar o obstáculo.
- WildOS vs. Navegação Pura Visual (LRN): O WildOS superou o método LRN (Long Range Navigation) em robustez. O LRN, sendo sem memória, oscilava em becos sem saída e falhava ao não distinguir entre fronteiras visuais e obstáculos não atravessáveis. O WildOS, com seu grafo de memória, conseguia reverter e escolher caminhos alternativos corretamente.
Generalização: O sistema demonstrou forte capacidade de generalização em ambientes urbanos e off-road, utilizando um modelo treinado com apenas 350 imagens anotadas, sem ajuste fino para os locais de teste.

5. Significado e Conclusão

O trabalho WildOS representa um avanço significativo na robótica de campo ao demonstrar que modelos de visão fundamental podem ser integrados de forma eficaz a sistemas de planejamento geométrico tradicionais.

Ponte entre Semântica e Geometria: O sistema preenche a lacuna entre a percepção visual de longo alcance (o que é possível ver e onde parece seguro) e a segurança geométrica de curto alcance (o que é fisicamente navegável).
Autonomia Robusta: Ao combinar memória espacial (grafo) com raciocínio semântico, o WildOS permite que robôs operem de forma autônoma em ambientes complexos e desconhecidos por longas distâncias, superando as limitações de abordagens puramente geométricas ou puramente visuais.
Impacto Futuro: A pesquisa abre caminho para comportamentos robóticos mais inteligentes e orientados a objetivos em "mundo aberto", essenciais para aplicações em busca e resgate, inspeção remota e monitoramento ambiental.